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摘要 


统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 性 概念 ， 如 何 表示 和 度量 统计 
独立 性 是 该 领域 的 基本 问题 。Copula 理论 提供 了 统计 相关 关系 表示 的 理论 
工具 ， 而 Copula 业 理 论 则 给 出 了 度量 统计 独立 性 的 概念 工具 。 本 文 综述 了 
Copula 箭 的 理论 和 应 用 ， 概 述 了 其 基本 概念 定义 、 定 理 和 性 质 ， 以 及 估计 
方法 。 介 绍 了 Copula 箭 研究 的 最 新 进展 ， 包 括 其 在 统计 学 的 九 个 基本 问题 
(结构 学 习 、 关 联 发 现 、 变 量 选 择 、 因 果 发 现 、 系 统 辨识 、 时 延 估 计 、 域 上 
适应 、 正 态 性 检验 和 双 样 本 检验 等 ) 上 的 理论 应 用 。 讨 论 了 前 四 个 理论 应 用 
之 间 的 关系 ， 以 及 其 对 应 的 深层 次 的 相关 性 和 因果 性 概念 之 间 的 联系 ， 并 
Copula AA (条件 ) 独立 性 度量 框架 与 基于 核 函数 和 距离 相关 的 同类 框架 
进行 了 理论 对 比 ， 又 通过 仿真 和 实际 数据 实验 评估 验证 了 Copula 粹 的 实际 
优越 性 。 简 述 了 Copula MEMEHA., RKA., Mekk. KEA 
息 学 、 材 料 学 、 水 文学 、 气 候 学 、 气 象 学 、 环 境 学 、 生 态 学 、 动 物 形 态 学 、 农 
学 、 认 知 神经 学 、 运 动 神经 学 、 计 算 神 经 学 、 心 理学 、 系 统 生物 学 、 生 物 信 
息 学 、 临床 诊断 学 、 老 年 医学 、 精 神 病 学 、 公 共 卫 生 学 、 经 济 学 、 管理 学 、 社 
会 学 、 教 育 学 、 计 算 语言 学 、 新 闻 传 播 学 、 法 学 、 政 治学 、 军 事 学 、 情 报 学 ， 
以 及 能 源 工 程 、 食 品 工 程 、 土 木 建筑 、 交 通 运 输 、 制 造 工 程 、 可 靠 性 工程 、 化 
学 工程 、 航 空 航天 、 车 辆 工程 、 电 子 工 程 、 通 信 工 程 、 高 性 能 计算 、 测 绘 遥 
感 和 金融 工程 等 领域 的 实际 应 
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Abstract 


Statistical independence is a core concept in statistics and machine learn- 
ing. Representing and measuring independence are of fundamental impor- 
tance in related fields. Copula theory provides the tool for representing 
statistical independence, while Copula Entropy (CE) presents the tool 
for measuring statistical independence. This paper first introduces the 
theory of CE, including its definition, theorem, properties, and estima- 
tion method. The theoretical applications of CE to structure learning, 
association discovery, variable selection, causal discovery, system identi- 
fication, time lag estimation, domain adaptation, multivariate normality 
test, and two-sample test are reviewed. The relationships between the for- 
mer four applications and their connection to correlation and causality are 
discussed. The frameworks based on CE, the kernel method, and distance 
correlation for measuring statistical independence and conditional inde- 
pendence are compared. The advantage of CE over other independence 
and conditional independence measures is evaluated. The applications of 
CE in theoretical physics, astrophysics, theoretical chemistry, cheminfor- 
matics, materials science, hydrology, climatology, meteorology, environ- 
mental science, ecology, animal morphology, agronomy, cognitive neu- 
roscience, motor neuroscience, computational neuroscience, psychology, 
system biology, bioinformatics, clinical diagnostics, geriatrics, psychiatry, 
public health, economics, management, sociology, pedagogy, computa- 
tional linguistics, mass media, law, political science, military science, in- 
formatics, energy, food engineering, architecture, civil engineering, trans- 
portation, manufacturing, reliability, chemical engineering, aeronautics 
and astronautics, automobile, electronics, communication, high perfor- 


mance computing, remote sensing, and finance are briefly introduced. 


Keywords: copula entropy; transfer entropy; correlation; causality; struc- 
ture learning; association discovery; variable selection; causal discovery; 
system identification; time lag estimation; domain adaptation; normality 


test; two-sample test; multidisciplinary application 
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统计 独立 性 
是 统计 学 的 基本 问题 。 
相关 系数 的 概念 来 度 


fir H 


qnl 


1 引言 


是 统计 学 和 机 器 学 习 领 域 的 基础 公 


在 统计 学 早期 的 


=, 
E 


EAEL A 


E， 并 应 用 于 


概念 ， 如 何 表示 和 度量 统计 
19 世纪 , 就 有 Pearson || (i) 提出 了 


优生 学 的 研究 。 上 个 地 纪 , 在 对 相 


XT 


的 研究 中 ou 


la 函数 理论 被 提出 ， 提 供 一 


种 统一 


表示 随机 变量 之 间 统 计 关 


联 关系 的 理论 工具 B 


的 关联 关系 都 对 应 着 个 用 于 


函数 表示 了 多 变 


量 之 间 


。 根据 Sklar 定理 由 ， 通 俗 地 讲 ， 任 何 一 个 多 变 
表示 这 种 关系 的 函数 , 称 为 Copula 函数 。Copula 
量 之 间 全 部 的 关联 关系 ， 且 与 单个 变量 的 性 


质 是 无 关 的 。 


2008 年 , 马 健 和 孙 增 匠 提 出 了 Copula ij (Copula Entropy: CE) 的 概念 B]. 


CE 的 概念 由 Copula 
证 明了 它 与 信 


密度 函数 定义 而 来 ， 本 质 上 是 一 种 香农 依 的 形式 。 
git [o] 中 的 互信 息 


念 是 等 价 的 。 FKE, 


我 们 也 


CE 的 提出 是 受到 了 


这 样 的 启发 ，Copula 函数 被 认为 包含 了 全 部 的 关联 关系 ， 而 互信 息 一 直 被 认为 


度量 了 全 部 的 关联 关系 的 信息 ， 那 么 我 们 认为 这 二 者 之 间 必 然 有 某 种 联系 。 


这 种 必然 联系 的 研究 的 乡 
CE 是 一 种 多 变量 之 | 


吉 果 ， 就 是 提出 了 CE 的 理论 。 


司 关 联 关 系 度量 的 理论 , 与 关联 关系 表示 理论 


对 


Cop- 


ula 函数 理论 相对 应 。Copula 函数 表示 关联 关系 , 而 由 之 得 到 的 CE 度量 了 关系 


中 的 信息 
包括 对 称 性 、 


量 。 


非 正 性 、 


CE 是 一 个 理想 的 统计 独立 性 
单调 变换 不 变 
CE 是 一 种 理想 的 统计 相关 性 度 


ASH 


4$ FN 


度量 的 和 
、 以 及 在 高 斯 变量 


性 


有 很 多 优美 的 属性 
量 时 与 相关 系数 等 价 等 。 


L» 


TELE, 同时 它 又 可 以 用 来 表示 和 度量 另 一 


个 重要 的 统计 学 概念 一 一 条 件 独立 性 


(Conditional Independence: CI). 


这 样 ， 


我 们 就 得 到 了 


个 


ET CE 的 人 


性 这 两 个 基本 概 


CE 是 一 个 基础 性 的 统计 工 


念 统一 起 来 。 


在 2008 年 就 将 其 应 用 到 结构 学 习 问题 上 [7]. 


系 结构 。 我 们 又 将 其 应 用 到 


自 适应 fi 


BR 都 取得 得 
ER 


作为 一 种 
实际 的 应 用 ， 包 


关联 发 现 BB]. AE 


良好 的 应 用 效果 。 


À 


括 理 论 物 理学 


条 件 ) 独立 性 度量 


有， 可 以 用 来 解决 多 个 统计 学 的 
用 来 学 习 统 计 变 

: 量 选 择 问 、 因 因果 发 现 
正 态 性 检验 (LQ). xou a]. npe pr 4] 和 M 


量 理论 框架 


， 将 相关 性 和 因果 


本 问题 。 我 们 
rey cee 


ut CE 被 提出 以 来 ， 在 多 个 不 同学 科 得 到 了 
天 体 物理 学 了 Det 、 化 学 信息 


> 人 ine bg 、 水 文学 气候 学 四 四、 气象 学 ilr Ed. 环境 
学 、 生 态 学 ba]. 动物 形态 学 [b be]. ga be] . umiza pHo. iz 


M ba bq. 计算 神经 学 ed Fo]. cma ri]. Bee ra ra]. Aw 
aay 、 临 床 诊断 学 也 43 、 老 年 医学 B389. 2 
共 卫 生 学 经济 学 、 管理 学 eA 、 教 育 学 PI. 3r 
算 语言 学 [102). 政治 学 | E 
a [10s], 工程 4 S dure wem) 土木 建筑 [119 
交通 运输 用 fol d (T 、 可 靠 性 工程 山 30 、 化 学 工程 册 mimi 
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航空 航天 had. [140]. rc [La]. mere qaas]. wy 
性 能 计算 [Lad]. WAER [145] MERE [1 等 。 在 这 些 应 用 中 ，CE 
Lu. dc apa CERTUS 
量 间 统计 关系 的 理解 ,或 者 用 于 建立 和 评价 模型 。CE 工具 不 仅 为 各 种 应 用 提供 
了 理论 支撑 ， 同 时 也 改进 了 计算 的 可 靠 性 和 效率 。 

在 以 上 实际 应 用 中 , 研究 者 也 提出 了 一 些 基于 CE 理论 的 新 方法 , 如 GCMI 
方法 BJ. EMA (Information Bottleneck) 计算 有、 独特 信息 (Unique 
MIA 估计 [r9]. Mn cad 此 可 、 图 结构 相似 度 计算 a), sexe 
算法 bobo). 非 线性 主 元 分 析 由 didis at podbij. HEEM 17) 因果 结 
构 学 习 balding ~ Copula ET RE Copula 结构 选择 (150) 1521153], 
Survival CE [81] 和 Copula Extropy | p CE 作为 一 种 基础 性 的 理论 方法 ， 
eee e 本 数学 概念 工具 ， 为 更 多 新 方法 论 
的 派生 提供 了 可 能 

本 文 第 四 部 分 介绍 Copula Atome RU EJ YR, EBAY AM CE 在 统计 
iie 论 应 用 ， 用 于 解决 统计 学 的 九 个 基本 问题 ， 第 图 部 分 讨论 四 个 相关 的 问 
题 ， 第 加 部 分 简要 叙述 CE 在 多 个 不 同学 科 领 域 中 的 实际 应 用 ， 第 图 部 分 对 论文 


进行 总 结 ， 


BE 


2 Copula hy 


2.1 理论 


Copula 理论 是 关于 多 随机 变量 之 间 相互 依赖 关系 表示 的 理论 HB wame 
定义 一 类 函数 ， 成 为 Copula 函数 ， 定 义 如 下 : 


定义 1 (Copula FR) 给 定 N 维 随 机 向 量 又 = (Xy... Xy) E RN. thu 
T X 的 边缘 分 布 函 数 wi = Fi(x;),t=1,...,N. MX ee N 维 Copula 函数 
C:IN LI = [0,1] 需要 满足 如 下 性 质 : 


1. C 的 下 确 界 为 0 且 在 单位 立方 体内 的 任意 子 立 方 体内 单调 递增 ; 
2. C(1,...,1,us,1,...,1) = us. 


直观 的 理解 ，Copula 函数 就 是 在 单位 N 立方 体 上 的 分 布 函数 ,边缘 分 布 为 均 义 
分 布 , 下 确 界 为 0， 且 在 任意 向 上 方向 上 单调 增加 。 从 Copula 函数 出 发 ， 对 各 
变量 求 导 ， 可 以 很 容易 地 定义 与 之 相对 应 的 Copula 密度 函数 c(u). 

Copula 理论 的 核心 结论 是 Sklar 定理 ， 给 出 了 如 何 利 用 Copula 函数 表示 
随机 变量 依赖 关系 的 结论 ， 如 下 : 


定理 1 (Sklar 定理 ) [J| 给 定 任意 N 维 随 机 变量 X 的 联合 分 布 函 数 F(X), 
边缘 分 布 函 数 F;(Xi) 和 Copula 函数 Clu), NIKEDA DATART AMAA 


2 COPULA à T 


ig ES) Copula 函数 的 形式 ， 如 下 


F(x) = C(F\(a1),..-, Fw (ew). (1) 


Copula 函数 的 表示 将 多 变量 的 联合 分 布 与 单个 变量 的 联合 分 布 分 离开 来 ， 将 依 
赖 关系 表示 为 一 个 Copula MA. 因此 ,依赖 关系 与 单个 变量 的 属性 是 没有 关系 
的 ，Copula 函数 中 包含 了 全 部 的 依赖 关系 信息 。 对 式 刷 两 边 求 导 ， 就 得 到 相应 
的 Sklar 定理 的 密度 函数 版 本 : 


= eu) [J p). 2) 


Job, pO) 表示 概率 密度 函数 。 

利用 Copula 密度 函数 的 表示 ， 我 们 就 可 以 定义 Copula i, "P: 

定义 2 (Copula M) [Jj 给 定 多 随机 变量 X, RHR | udo Copula 密度 
函数 c(u)， 则 Copula the LA: 


= 


H.(x) = - f ctu) log c(u)du. (3) 

在 信息 论 中 ,互信 息 (Mutual Information: MI) PREA E LAR AA 
& [0]. 在 文献 B] 中 ,我 们 证 明了 二 者 本 质 上 是 相同 的 ， 也 即 是 ，MI 等 价 于 负 
的 CE， 也 可 以 表示 成 习 的 形式 。 定 理 如 下 : 


定理 2 多 随机 变量 的 MI 等 价 于 其 负 的 CE. 
I(x) = —H,(x). (4) 


AEPERUUEBH d fa. rH EBRD BE — ARITA. MA CE 之 间 
关系 的 推论 ， 如 下 : 


推论 1 $ Mb yv € EAST Tid CE. 


= >. H(2;) + He(x). (5) 


以 上 结论 通过 CE 的 定义 ， 加 深 了 我 们 对 信息 论 基本 概念 及 其 之 间 关 系 的 了 解 ， 
也 因此 在 Copula 理论 和 信息 论 之 间架 起 了 一 座 桥 梁 


2.2 ”性质 


WIPE 由 Copula 理论 得 到 的 CE 具有 很 多 有 趣 的 性 质 。 首 先 从 定义 来 看 ，CE 
是 一 种 特殊 的 香农 炉 ， 定 义 在 单位 体 的 概率 分 布 函数 上 ， 因 此 其 也 具有 香农 炉 
具有 的 连续 性 、 对 称 性 和 可 加 性 等 特性 。 


2 COPULA à 8 


多 变量 香农 的 MI 定义 针对 的 是 二 变量 情况 ,但 CE 概念 不 限于 二 变量 的 情 
况 ， 也 适用 于 多 变量 的 情况 ,， 且 多 变量 之 间 具 有 对 称 性 , 扩展 了 MI 的 定义 和 适 
用 范围 。 


全 阶 次 ”由 Copula 密度 函数 而 定义 的 CE 从 一 个 新 的 角度 给 出 了 对 MI 概念 更 
深入 的 理解 。Copula 函数 被 认为 是 包含 了 随机 变量 之 间 所 有 相关 性 的 信息 ， 那 
4 CE 作为 相关 性 的 随机 性 的 度量 ， 就 等 于 给 出 了 随机 变量 之 间 所 有 阶 次 相关 
性 的 信息 量 。 


单调 变换 不 变性 ”由 于 Copula 函数 具有 单调 变换 不 变性 ， 因 此 基于 Copula K 
数 定义 的 CE 天 然 地 继承 了 这 一 不 变性 特性 。 


边缘 函数 无 关 ”上面 提 到 ，Copula 理论 将 联合 分 布 分 解 为 边缘 函数 和 Copula 
函数 两 个 相对 独立 的 部 分 ， 这 也 对 应 到 联合 依 的 分 解 : 随机 变量 的 联合 炉 也 可 
PATH MR AA CE 两 个 相互 无 关 的 部 分 。 而 MI 与 CE 等 价 ， 因 此 
MI (CE) 只 与 Copula 函数 有 关 ， 与 边缘 函数 无 关 、 联 合 函 数 无 关 ， 这 与 香农 
基于 边缘 函数 和 联合 函数 的 MI 定义 构成 了 显著 的 理论 区 别 。 


非 正 性 ”需要 指出 的 是 ，CE 本 身 是 非 正 的 , 它 表 明了 由 于 多 变量 之 间 具 有 相关 
生 ， 使 得 多 变量 之 间 相 互 包含 有 其 他 变量 的 信息 ， 因 此 就 使 得 联合 录 的 总 信息 
量 减少 , RAK AMV) FETE AIS A. 一 般 地 讲 , Ai ETE BLE 
量 的 不 确定 性 ， 是 非 负 的 ; 而 CE 则 是 非 正 的 ， 因 为 它 度量 了 由 于 变量 间 相 关 
生 导 致 减少 的 不 确定 性 。 


i 


D 


-— 


等 价 关 系 ” 相 关系 数 是 统计 学 传统 的 相关 性 度量 ， 它 隐 含 着 分 布 高 斯 性 的 假设 。 
可 以 很 容易 证 明 ， 在 高 斯 分 布 的 情况 下 ， 相 关系 数 与 CE 具有 数学 上 的 等 价 关 
R, BI CE 可 以 由 相关 系数 矩阵 来 表示 。 


2.3 ”估计 方法 
MI 作为 信息 论 的 基本 概念 ， 具 有 广泛 的 应 用 价值 。 但 学 界 普遍 认为 MI 的 
估计 是 十 分 困难 的 。 我 们 根据 定理 2, 给 出 了 一 个 简单 且 优雅 的 非 参 数 CE (MI) 
估计 方法 加。 该 方法 仅 需 如 下 2 步 : 
1. 估计 经 验 Copula 密度 函数 ; 
2. 由 经 验 Copula 密度 函数 估计 CE. 


1 本 方法 已 经 实现 为 R 和 Python 语言 的 copent 算法 包 已 5 昂 ， 并 已 分 别 在 CRAN 和 PyPI 
上 发 布 共享 。 


给 定 随 机 变量 X 的 一 组 独立 同 分 布 样本 m1... or], 可 以 很 容易 地 通过 次 序 
统计 量 (rank) 来 估计 经 验 Copula 密度 函数 ， 如 下 


EE 
F(xi) = pe 1(xi < cj), (6) 


t=1 


其 中 10) 表示 示 性 函数 。 

在 得 到 经 验 Copula 密度 函数 后 , 第 2 ERE, 有 很 多 方 
法 可 以 采用 。 我 们 采用 了 Kraskov 等 [160] 提出 的 k 近邻 法 来 估计 CE, AWE 
是 一 个 非 参 数 方法 ， 具 有 良好 的 估计 性 能 。 

由 于 在 两 步 中 都 采用 了 非 参数 的 方法 (次 序 统计 量 和 k 近邻 法 )， 因 此 ,我 
们 就 得 到 了 一 个 非 参 数 的 CE 佑 计 方 法 。 方 法 简单 ， 易 于 实现 ， 且 计算 量 要 求 
较 低 。 此 方法 是 一 个 典型 的 基于 序数 (rank) 统计 量 的 非 参数 估计 方法 ， 将 CE 
AE BH HI AR AR PA AI AEP E, PRA 


3 理论 应 用 


3.1 结构 学 习 


从 数据 分 析 一 组 随机 变量 之 间 的 关联 结构 ， 可 以 帮助 我 们 了 解 系统 内 部 的 
内 在 结构 关联 性 , 具有 重要 的 应 用 价值 。 在 统计 和 机 器 学 习 学 习 中 ,表示 这 种 关 
联结 构 的 主要 工具 方法 是 图 (Graph), ， 图 中 的 顶点 表示 随机 变量 ， 顶 点 之 间 的 
边 表示 变量 之 间 的 关联 ， 边 的 权重 表示 关联 的 强度 。 图 又 分 为 有 向 图 和 无 向 图 ， 
前 者 的 边 具有 方向 而 后 者 则 无 方向 ， 前 者 表示 变量 之 间 的 因果 关系 而 后 者 表示 
关联 关系 。 从 数据 中 学 习 这 种 关联 图 结构 的 问题 ， 被 称 为 结构 学 习 (Structure 
Learning), 
结构 学 习 的 算法 很 多 ， 其 中 比较 著名 的 有 Chow-Liu 的 图 结构 学 习 方法 
.该 方法 通过 学 习 变量 的 互信 息 和 矩阵 ,再 基于 矩阵 学 习 最 小 生成 树 (Minimal- 
Spanning-Tree: MST) 来 得 到 主要 关联 结构 的 骨架 。 
利用 互信 息 和 CE 的 等 价 性 ， 我 们 给 出 了 Chow-Liu 算法 的 CE 版 本 f, 
包含 两 步 : 


1. 利用 CE 合计 方法 学 习 得 到 随机 变量 的 关联 矩阵 ; 
2. 再 利用 MST 生成 算法 从 上 述 矩 阵 得 到 关联 图 结构 。 


由 于 我 们 的 CE 估计 方法 简单 有 效 , 相 较 于 传统 的 互信 息 估计 具有 明显 优势 , 因 
此 也 使 得 Chow-Liu 算法 更 可 靠 有 效 。 

我 们 将 算法 应 用 到 两 个 经 典 的 UCI 机 器 学 习 数据 集 [162]: 鲍鱼 生长 数据 
和 波士顿 房价 数据 集 。 实 验 结果 显示 ， 算 法 能 够 得 到 具有 可 解释 性 的 关联 结 


pid 
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构 ， 使 我 们 对 数据 反映 的 鲍鱼 生长 特性 和 波士顿 房价 相关 因素 的 内 在 关系 有 了 
更 深入 的 理解 。 


3.2 ”关联 发 现 

经 验 科 学 是 分 析 数 据 的 学 问 。 通 过 分 析 收 集 的 观察 或 经 验 数据 ， 人 们 得 出 
对 象 系统 的 科学 结论 。 关 联 的 概念 是 多 元 统计 分 析 的 基本 工具 之 一 。 它 度量 
随机 变量 之 间 的 统计 性 内 在 联系 ， 进 而 被 赋予 科学 意义 。 发 现 关联 关系 是 科学 
研究 的 主要 内 容 方 法 之 一 。 

Pearson 相关 系数 [1] 是 一 种 统计 学 史上 重要 的 相关 性 度量 概念 ， 教 科 书 里 
都 会 讲 到 , 应 用 也 很 广泛 。 但 由 于 它 是 统计 学 早期 提出 的 概念 , 因此 具有 很 多 局 
限 性 。 从 理论 上 来 讲 ， 它 只 适用 于 线性 相关 关系 的 情况 ， 隐 含 着 高 斯 分 布 的 假 
设 , 使 它 在 绝 大 多 数 实际 情况 中 都 不 适用 。 它 是 一 个 二 变量 的 度量 , 没有 多 变量 
的 版 本 。 

CE 则 是 一 种 更 高 级 的 相关 性 度量 , 相对 于 Pearson 相关 系数 具有 显著 的 优 
势 。 它 没有 线性 和 高 斯 性 的 假设 ， 且 是 一 个 多 变量 的 相关 性 度量 。 实 际 上 ，CE 
度量 的 是 统计 独立 性 ， 比 相关 性 更 宽泛 的 概念 ， 在 统计 独立 的 情况 下 ， 其 为 0。 
CE 还 具有 单调 变换 不 变性 ， 且 在 高 斯 分 布 的 情况 下 ， 与 相关 系数 等 价 。 简 单列 
一 下 CE 作为 相关 性 度量 的 优点 : 


无 模型 假设 ， 

可 处 理 非 线性 关系 ， 
统计 独立 性 度量 ， 
单调 变换 不 变性 ， 
。 在 高 斯 情况 下 与 相关 系数 等 价 。 


综合 了 如 此 多 优点 ，CE 是 一 个 完美 的 相关 性 度量 ， 完 全 可 以 蔡 代 Pearson 相关 
系数 ， 适 用 于 任何 类 型 的 相关 性 度量 。 Pearson 相关 系数 作为 一 个 历史 悠久 的 统 
计 工 具 ， 可 以 进入 历史 了 。 

关于 CE 与 Pearson 相关 系数 的 理论 上 的 对 比 ， 可 参见 论文 问 。 论 文 还 利 
用 著名 的 NHANES 医学 体检 数据 也 6 引 ， 从 实验 上 证 明了 CE 的 显著 优越 性 目 。 


3.3 ”变量 选择 
变量 选择 (Variable Selection), ， 又 称 特征 选择 ， 是 统计 和 机 器 学 习 的 基本 
问题 所 64 [6 引 。 当 人 们 试图 从 一 组 自 变量 和 目标 预测 变量 之 间 建 立 函数 关系 时 ， 


2 实验 代码 : https://github.com/majianthu/dse 
3 实验 代码 : https://github.com/majianthu/nhane 
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往往 希望 只 选择 真正 与 目标 变量 有 内 在 联系 的 自 变量 子 集 作为 函数 模型 的 输入 ， 
以 提高 模型 的 科学 性 (或 可 解释 性 )， 同 时 降低 模型 的 复杂 度 。 这 样 的 问题 称 为 
变量 选择 。 在 统计 和 机 器 学 习 中 ， 变 量 选 择 主要 用 于 多 元 分 类 或 回归 分 析 中 建 
立 的 函数 模型 关系 。 

传统 的 变量 选择 方法 很 多 , 主要 的 有 准则 法 、 模型 正则 化 方法 和 关联 度量 
法 。 主 要 的 准则 法 有 AIC [160] 和 BIC [167] 等 ， 通 过 在 似 然 函 数 上 加 上 对 模型 
复杂 度 的 惩罚 项 得 到 。 模 型 正则 化 方法 主要 用 于 广义 线性 回归 模型 ,在 学 习 模 型 
的 过 程 中 , 通过 在 似 然 函数 上 加 上 模型 参数 (线性 系数 ) 的 1 范 数 或 2 范 数 或 二 
者 的 组 合 得 到 , 经 典 的 方法 包括 LASSO (168), 岭 回归 (Ridge Regression) [169) 
和 弹性 网 络 (Elastic Net) [L70] 等 。 以 上 两 类 方法 都 是 基于 似 然 函 数 加 惩罚 项 
的 形式 完成 变量 选择 ， 都 是 模型 有 关 的 。 关 联 度量 的 方法 则 是 通过 自 变量 和 目 
标 变量 之 间 的 关联 强度 来 选择 变量 ， 通 常 是 模型 无 关 的 。 主 要 的 关联 关系 度量 
包括 传统 的 Pearson 相关 系数 ， 但 它 只 能 度量 线性 关系 ， 仅 适用 于 线性 模型 。 其 
它 几 个 主要 的 非 线性 关联 度量 也 都 被 应 用 到 变量 选择 问题 上 ， 包 括 希 尔 伯 特 - 施 
密 特 独立 性 准则 (Hilbert-Schmidt Independence Criterion: HSIC) [17172] 和 
距离 相关 (Distance Correlation: DC) zh 等 。 

变量 选择 问题 , 推荐 CE 方法 , 不 建议 LASSO 或 者 p-value 等 传统 统计 方 
法 。 本 方法 利用 CE 度量 自 变量 和 目标 变量 之 间 的 关联 强度 ， 根 据 强 度 从 大 到 
小 依次 选择 变量 。 在 变量 选择 问题 上 ，CE 已 被 真实 数据 实验 证 明 优 于 以 下 主流 
变量 选择 方法 : 


e LASSO / Ridge Regression / Elastic Net 上 ed hrd, 
。AIC / BIC [168,167], 

+ Adaptive LASSO [175], 

。 Hilbert-Schimdt Independence Criterion (HSIC) 上 7 天 7 下， 
。 Distance Correlation hz lzd, 

。 Heller-Heller-Gorfine Tests of Independence hzd, 


。 Hoeffding's D test i77, 


。 Bergsma-Dassios T* sign covariance |178], 


0 


Tr 


e Ball correlation |179]. 


实验 四 采用 了 著名 的 UCL 心脏 病 数据 集 [162], 将 CE 方法 与 以 上 方法 进行 对 比 。 
该 数据 集 包 含 了 来 自 世界 4 地 的 病人 临床 生理 测量 数据 和 诊断 结果 ， 用 来 研究 
如 何 从 生理 特征 预测 心脏 病 诊 断 结 果 。 其 中 部 分 临床 特征 已 被 专家 认定 为 是 疾 
ET 
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病 相 关 特 征 , 这 就 为 验证 变量 选择 方法 提供 了 一 个 参照 标准 。 实 验 结果 表明 ,与 
其 他 方法 相 比 ，CE 方法 选择 出 了 最 多 的 疾病 相关 特征 ， 在 预测 性 和 可 解释 性 上 
优势 明显 。 部 分 对 比 结果 见 医 四。 

CE 为 变量 选择 问题 提供 了 统一 的 理论 框架 。 它 具有 以 下 优点 : 

。 模型 无 关 ， 

。 数 学 理论 坚实 ， 

。 物 理 上 可 解释 ， 

。 具 有 非 参 数 估计 算法 ， 不 做 理论 假设 ， 

。 几乎 不 需要 调 参 。 

该 方法 做 变量 选择 是 模型 无 关 的 ， 这 是 与 基于 似 然 函 数 的 方法 相 比 ， 方 法 
无 需 考 虑 模型 及 其 复杂 度 等 因素 ， 具 有 明显 的 普 适 性 优势 。 作 为 一 种 关联 度量 
TA, CE 与 其 他 度量 工具 相 比 定义 更 坚实 ， 具有 很 多 理想 的 独立 性 度量 公理 属 
性 ， 因 此 也 就 具有 了 明显 的 理论 优势 。 另 外 ， 是 一 种 物理 意义 明确 的 数学 概 
念 ，CE 可 被 认为 是 从 自 变 量 到 目标 变量 的 函数 关系 包含 的 信息 量 ， 因 此 很 容易 
从 物理 上 理解 和 解释 得 到 的 模型 。 在 方法 实现 上 ，CE 的 估计 方法 基于 序数 统计 
量 ， 是 非 参 数 的 ， 不 做 任何 理论 假设 ， 充 分 发 挥 了 其 理论 优势 。 同 时 ， 其 估计 方 
法 具有 良好 的 渐 近 稳定 性 ， 且 几乎 不 需要 调 参 ， 与 LASSO 等 结果 严重 依赖 超 
$ 


将 变量 选择 问题 变 成 了 一 种 科学 ， 而 不 像 LASSO 等 方法 是 一 门 艺术 。 

生存 分 析 (Survival Analysis) 是 一 类 特殊 的 回归 问题 ， 其 预测 目标 是 事件 
发 生 时 间 (time-to-event), ， 也 即 是 未 来 某 一 事件 发 生 所 需要 的 时 间 。 这 类 问题 
的 特殊 性 还 在 于 一 种 删 失 (Censoring) 机 制 ， 用 于 当 某 一 事件 在 观察 期 未 发 生 
时 的 处 理 。 生 存 分 析 在 医学 、 可 靠 性 和 社会 科学 等 领域 具有 广泛 的 应 用 。 建 立 
生存 分 析 模型 也 需要 进行 变量 选择 ， 用 于 筛选 与 事件 发 生 时 间 相关 的 变量 。 马 
健 [rS] 提出 将 CE 的 变量 选择 方法 应 用 于 此 类 问题 ， 通 过 计算 变量 与 事件 发 生 
时 间 之 间 的 CE 来 选择 变量 。 他 将 方法 应 用 于 两 个 公开 的 肺癌 数据 ， 与 常用 的 
随机 生存 森林 (Random Survival Forest) 和 Lasso-Cox 两 种 方法 进行 了 对 比 ， 
发 现 该 方法 能 够 在 保证 模型 可 解释 性 的 同时 获得 更 好 的 预测 性 能 ， 验 证 了 方法 
fio cip, 


3.4. 因果 发 现 


因果 关系 普 凯 存在 于 自然 界 当 中 ， 发 现 因果 关系 是 各 门 科学 的 主要 命题 之 
一 。 从 一 组 随机 变量 的 时 序 观测 中 发 现 变量 之 间 的 因果 关系 ， 被 称 为 因果 发 现 


5 实验 代码 : https://github.com/majianthu/surviva 
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(Causal Discovery) 问题 ， 是 统计 学 中 时 间 序列 分 析 的 经 典 问题 。 时 序 因果 关系 
发 现 方法 在 不 同学 科 领 域 都 有 重要 应 用 价值 。 

如 何 度量 因果 关系 是 因果 发 现 问题 解决 的 基础 。 控 制 论 学 者 维 纳 提出 了 一 
种 因果 关系 的 哲学 概念 ， 表 述 为 因 必须 有 助 于 改善 果 的 预测 已 8 中 。 在 此 理念 基 
础 上 , 格 兰 杰 提 出 了 著名 的 格 兰 杰 因 果 关系 (Granger Causality: GC) 检验 [181] 
.GC 检验 是 经 典 的 因果 发 现 工具 ,但 它 只 适用 于 高 斯 的 情况 .Schreiber [183] 
定义 了 用 于 发 现 稳 态 时 序 包含 的 因果 关系 的 传递 箭 (Transfer Entropy: TE) 的 概 
4. TE 是 GC 的 非 线性 推广 , 等 价 于 信息 论 的 条 件 互信 息 (Conditional Mutual 
Information: CMI) ， 本 质 上 是 检验 条 件 独 立 性 (Conditional Independence) , 
是 模型 无 关 的 ， 因 此 适用 于 任何 情况 的 因果 关系 检验 。TE 作为 广泛 采用 的 因果 
关系 度量 ， 较 之 其 他 经 验 式 带 有 模型 假设 的 传统 因果 关系 推断 方法 更 科学 合理 ， 
具有 更 广泛 的 普 适 性 。 

CE 是 统计 独立 性 度量 , 而 TE 是 条 件 独立 性 度量 。 我 们 证 明了 二 者 之 间 在 
数学 上 有 着 本 质 上 的 内 在 理论 联系 [10] . 通过 并 不 复杂 的 数学 变换 ， 可 以 很 容易 
WEB], TE 可 以 表示 为 只 包含 CE 的 数学 形式 。 这 一 数学 表示 形式 为 从 CE 估计 
TE 提供 了 理论 基础 。 


命题 1 TE 可 以 表示 为 仅 包含 CB 的 数学 形式 . 从 X53 Ya TEM CE 表示 
如 下 : 
TEx.y = He(Ye41,¥) + HS, Y) — Hn a, Y, Xt). (7) 


因为 TE AJ EIA You 由 XY, 的 度量 ， 因 此 全 也 其 实 是 给 
出 了 一 种 条 件 独 立 性 的 CE 表示 。 

在 过 去 的 研究 中 ， 因 果 关 系 的 估计 往往 是 在 一 定 的 假设 前 提 下 进行 ， 无 假 
设 前 提 的 因果 关系 估计 被 很 多 研究 者 认为 是 不 可 能 的 。 我 们 基于 以 上 TE 的 CE 
表示 形式 ， 利 用 非 参数 的 CE 估计 算法 ， 提 出 了 一 种 简单 优雅 、 易 于 理解 和 实 
现 的 非 参 数 TE 估计 方法 由 中。 这 样 ， 不 带 任何 假设 条 件 的 因果 关系 发 现 就 成 
为 了 可 能 。 此 估计 方法 包含 简单 的 两 步 四 : 


1. 利用 非 参 数 CE 估计 方法 ， 估 计 式 刷 中 的 3 个 CE 子 项 ; 
2. 由 3 个 CE 估计 值 计算 得 到 TE. 


为 了 验证 提出 的 非 参数 TE 估计 方法 ， 我 们 将 该 方法 应 用 于 大 气 污染 问题 
中 的 因果 发 现 , 研究 了 北京 地 区 气象 因素 和 PM2.5 之 间 的 因果 关系 回 .实验 采用 
T UCT 机 器 学 习 数 据 集 仓库 中 的 北京 PM2.5 数据 |84， 包 含 了 北京 地 区 2010 
年 至 2014 年 之 间 的 每 小 时 的 连续 气象 观测 数据 和 PM2.5 观测 数据 。 我 们 的 分 
析 选 择 其 中 一 段 无 缺失 值 的 连续 时 间 数 据 记录 ， 利 用 上 述 方法 很 容易 就 可 以 估 
计 出 气象 因素 对 1 至 24 小 时 后 PM2.5 浓度 的 影响 程度 。 利 用 上 述 估计 方法 
6 此 方法 已 在 R 和 Python 的 copent 包 [159] 中 实现 。 
7 实验 代码 : 


= 
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不 是 无 条 件 的， 我 们 默认 假设 了 时 序 是 稳 态 的 ， 也 假设 了 时 间 段 之 间 的 马尔 科 
FE, 也 就 是 不 相 邻 的 时 间 段 之 间 无 关 。 对 24 小 时 内 滞后 因果 关系 的 分 析 发 现 ， 
温度 、 湿 度 、 压 力 等 气象 因素 对 PM2.5 的 形成 的 因果 关系 是 一 个 由 迅速 增加 到 
缓慢 增强 的 过 程 。 

同样 在 上 述 实验 数据 的 基础 上 ， 我 们 将 提出 的 TE 估计 方法 与 另外 两 种 条 
件 独立 性 度量 进行 了 对 比 实验 , 估计 从 气象 因素 到 PM2.5 的 因果 关系 24 小 时 走 
势 。 这 两 种 度量 分 别 是 基于 核 函 数 的 条 件 独 立 性 度量 (Kernel-based Conditional 
Independence: KCI) [185 和 条 件 距离 相关 (Conditional Distance Correlation: 
CDC) [186]. 论文 通过 将 用 CE 估计 TE 与 其 它 两 种 方法 进行 了 对 比 , 结果 ( 见 
WB) 显示 TE 的 估计 效果 更 好 。 


3.5 ”系统 辨识 


微分 方程 是 描述 动态 系统 的 主要 数学 工具 , 在 不 同学 科 具 有 广泛 的 应 用 。 从 
数据 中 学 习 微 分 方程 是 动态 系统 领域 的 一 个 重要 问题 ， 也 称 系统 辨识 或 方程 发 
现 ， 近 年 来 得 到 了 大 量 的 研究 。 

方程 发 现 问题 通 常 可 以 被 当 作 一 个 回归 问题 来 对 待 ， 即 从 数据 学 习 一 组 从 
系统 状态 到 状态 微分 的 回归 方程 。 给 定 一 个 一 般 的 动态 系统 微分 方程 形式 ， 如 
下 : 


f L filt), (8) 
其 中 sui = 1,...,N 表示 系统 状态 变量 ， 则 方程 发 现 问题 就 是 从 数据 辨识 fie 
从 数据 辨识 f, 需要 确定 该 方程 包含 的 未 知 自 变 量 ， 一 旦 自 变 量 确定 则 方程 的 对 
应 关系 就 知道 了 ， 这 是 典型 的 变量 选择 问题 。 很 多 经 典 回归 模型 方法 被 应 用 到 
此 问题 ， 如 高 斯 过 程 、 基 于 稀疏 性 的 方法 (如 SINDy)、 核 函数 方法 和 神经 网 络 
等 


马 健 [15] 提出 了 一 种 基于 CE 的 微分 方程 发 现 方法 ， 将 问题 理解 为 变量 选 
择 问 题 ， 利 用 基于 CE 的 变量 选择 方法 解决 了 此 方程 发 现 问题 。 该 方法 包含 了 
两 个 主要 步骤 : 


1. 利用 差分 算 子 近似 计算 状态 变量 的 微分 ; 
2. 计算 状态 微分 和 状态 变量 之 间 的 CE, fiis CE 来 选择 方程 的 变量 。 
该 方法 中 的 差分 算 子 可 以 由 以 下 非 参 数 方式 计算 得 到 : 


= 


dx Lt, — Ttg 
— 一 = " 9 
dr tto ire (9) 


而 CE 可 以 由 非 参 数 估计 方法 得 到 。 因 此 ， 所 提出 的 方法 是 非 参 数 的 ， 不 做 任 
何 假设 ， 适 用 于 任何 动态 系统 的 辨识 。 


0.3 


Transfer Entropy 
0.1 


0.0 
1 


-0.1 
1 


lag (hours) 


(a) TE 


Kernel CI 


lag (hours) 


(b) KCI 


CDC 


lag (hours) 


(c) CDC 


2: 由 三 种 因果 关系 度量 估计 的 从 压力 到 PM2.5 的 因果 关系 强度 变化 图 . 
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作者 将 方法 应 用 于 经 典 的 3 维 Lorenz 系统 ,系统 中 包含 了 由 一 阶 和 二 阶 的 
His deu 3 个 方程 ， 该 方法 成 功 地 从 仿真 数据 中 辨识 出 了 系统 方程 中 状 
态 \ 态 微分 变量 之 间 的 关系 ， 证 明了 方法 的 有 效 性 8。 


[E 


à 
1 : 


3.6 ”时 延 估计 


系统 辨识 (System Identification) 是 现代 系统 理论 中 研究 系统 特性 的 重要 
工具 方法 , 主要 是 研究 如 何 从 观测 数据 来 确定 描述 系统 行为 的 模型 及 其 参数 。 时 
WE (Time Lag) 是 一 种 动态 系统 中 普遍 存在 的 特性 ， 指 一 个 变量 作用 于 另 一 个 
变量 需要 的 时 间 。 由 于 物质 、 能 量 或 信息 的 传输 时 间 ， 时 延 存在 于 所 有 物理 、 社 
会 和 生物 系统 中 的 因果 效应 发 生 的 时 间 先 后 关系 上 。 因 此 ， 时 延 参 数 的 估计 是 
重要 的 理论 问题 ， 具 有 广泛 的 应 用 价值 ， 比 如 可 以 用 来 分 析 交 通 系统 中 的 拥堵 
传播 、 太 阳 活 动 对 地 球 系统 的 影响 、 政 策 效应 的 分 析 等 诸多 问题 。 

传统 的 时 延 估计 的 主要 方法 是 基于 时 序 变量 的 自 相 关系 数 ， 但 其 具有 线性 
假设 ， 因 此 作用 范围 十 分 有 限 。 另 一 种 主要 方法 是 时 延 互 信息 (Time-delayed 

MI), 可 以 去 除 线性 假设 的 限制 ,适用 于 具有 非 线性 特性 的 时 序 变 量 。 但 这 两 种 
方法 本 质 上 都 是 对 称 关系 的 度量 ， 而 系统 时 延 由 于 是 因果 关系 的 属性 ， 因 此 是 
非 对 称 的 关系 。TE 作为 一 种 非 对 称 的 因果 关系 度量 ， 量 化 了 从 因 变 量 到 果 变量 
作用 关系 的 信息 量 ， 因 而 更 适用 于 估计 因果 时 延 特性 。 

动态 系统 的 时 延 可 以 通过 从 时 序数 据 估计 TE 统计 量 来 进行 估计 ， 但 传统 
的 TE 估计 问题 被 认为 十 分 困难 。 马 健 [14] 提出 利用 上 述 基 于 CE 的 TE 估计 
方法 来 解决 时 延 估计 问题 ， 先 估计 时 延 窗 口内 的 因 变 量 到 果 变量 的 一 组 TE 值 ， 
再 将 TE 的 最 大 值 对 应 的 时 延 作 为 时 延 参 数 的 值 。 由 于 该 TE 估计 器 是 非 参 数 
的 ， 因 此 不 对 动态 系统 做 任何 假设 ， 具 有 普 适 性 。 

作者 仿真 了 四 个 具有 不 同 动态 特性 的 时 延 动态 系统 以 验证 方法 的 有 效 性 
发 现 该 方法 可 以 准确 地 从 系统 的 仿真 数据 中 估计 出 相应 的 时 延 参数 。 作 者 又 ; 
方法 应 用 于 摩洛哥 缔 头 万 (Tétouan) 城 的 电力 负荷 数据 ， 分 析 五 种 天 气 因素 》 
该 城 三 个 区 域 电力 负荷 影响 的 时 延 特征 ， 发 现 了 不 同 天 气 因素 对 负荷 产生 影 
的 时 延长 度 ， 以 及 影响 的 每 日 变化 特征 四 


F 


aR 


c 


"5n 


3.7. WARM 


域 自 适 应 (Domain Adaptation: DA) 是 一 类 常见 的 问题 , 是 指 训练 模型 的 
数据 与 应 用 模型 的 数据 的 概率 分 布 不 同时 ， 需 要 让 训练 的 模型 适应 分 布 的 偏 移 
的 情况 。DA 问题 具有 重要 的 现实 意义 。 比 如 ,将 在 一 个 医院 采集 的 数据 上 训练 
好 的 模型 应 用 到 其 他 医院 时 ， 可 能 由 于 数据 采集 设备 的 不 同 导致 采集 的 数据 发 
生 分 布 偏 移 ， 从 而 导致 模型 性 能 下 降 。 同样 的 情况 也 会 发 生 在 其 他 领域 (如 社会 


8 实验 代码 : https://github.com/majianthu/sysid 
9 实验 代码 : https://github.com/majianthu/timelag 
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学 ) 的 问题 中 ,比如 由 于 人 群 的 社会 属性 的 不 同 , 由 一 个 人 群 研究 得 到 的 模型 结 
论 在 男 一 个 人 群 上 就 会 发 生 模 型 偏差 。 

于 CE 的 条 件 独立 性 度量 作为 一 种 基本 的 统计 学 工具 , 可 以 用 于 解决 DA 
问题 。 马 健 [ni] 提出 了 一 种 从 因果 角度 解决 DA 问题 的 方法 。 他 假设 自 变量 X 
到 预测 变量 Y 在 不 同 域 Di 上 的 关系 是 不 变 的 ， 将 数据 分 布 迁移 视 为 一 个 由 外 
在 条 件 变量 Z 在 Di 上 作用 不 同 导致 的 结果 ， 这 样 DA 问题 就 转化 为 学 习 自 变 
量 XX、 预测 变量 Y》 和 外 在 变量 Z 之 间 统 计 关 系 的 问题 ， 需 要 发 现 X,Y 之 间 不 
变 的 依赖 关系 ， 二 者 的 依赖 关系 以 外 在 变量 为 条 件 ， 即 判断 是 否 


X JA. Y|Z. (10) 


这 时 ， 利 用 基于 CE 的 条 件 独立 性 测试 就 能 发 现 域 迁 移 条 件 Z 背后 的 六 和 了 
之 间 不 变 的 因果 关系 ， 从 而 很 好 地 解决 了 DA 问题 。 

作者 设计 了 仿真 实验 验证 了 方法 的 有 效 性 ， 并 将 方法 成 功 应 用 于 社会 学 的 
男女 收入 不 平等 的 社会 原因 分 析 问题 


3.8 正 态 性 检验 


正 态 分 布 是 一 类 非常 重要 的 概率 分 布 函数 ， 在 所 有 概率 函数 中 居于 中 心地 
位 ， 且 在 实际 问题 中 大 量 存在 。 正 态 性 是 很 多 统计 模型 和 方法 中 的 假设 条 件 ， 
因此 在 应 用 中 检验 分 布 正 态 性 的 方法 成 为 了 一 个 十 分 必要 的 工具 。 正 态 性 检验 
(Normality Test) 是 一 类 检验 分 布 正 态 性 假设 的 假设 检验 方法 ， 分 为 单 变量 和 
多 变量 两 类 。 传统 的 正 态 性 检验 方法 很 多 ， 比 如 基于 和 矩 、 特 征 函 数 、 信 或 最 优 传 
输 等 概念 工具 的 方法 等 。 

CE 作为 衡量 变量 间 全 阶 次 相关 关系 的 度量 工具 , 也 可 以 用 于 检验 二 阶 相关 
特性 的 正 态 性 检验 问题 。 我们 都 知道 , 根据 最 大 炉 原 理 , 在 二 阶 统 计量 相同 的 情 
况 下 ， 在 所 有 分 布 中 正 态 分 布 的 烂 最 大 。 由 于 正 态 分 布 完 全 由 其 一 阶 和 二 阶 统 
计量 决定 ， 因 此 正 态 分 布 的 CE 中 包含 的 是 二 阶 相关 性 对 应 的 信息 。 可 以 很 容 
DEF, 在 正 态 分 布 的 条 件 下 ，CE 与 二 阶 统 计量 具有 等 价 关 系 。 具 体 地 ， 假 设 
高 斯 随机 向 量 X AIT FEN Va, WWE CE 与 V. 之 间 存在 如 下 关系 : 


1 
H.(xn) = z les |Vx. (11) 


而 在 非 正 态 分 布 中 , 相关 关系 不 仅 是 二 阶 的 ,也 有 高 阶 的 ,因而 CE 包含 的 信息 
除了 二 阶 相关 关系 对 应 的 信息 外 ， 也 有 高 阶 相关 关系 对 应 的 信息 ， 且 非 高 斯 性 
越 强 ，CE PRGA Aw. FHT, PRAWN oe, Alt CE 
度量 了 包括 二 阶 相关 信息 在 内 的 全 部 阶 次 相关 性 信息 。 

马 健 [12] 利用 高 斯 分 布 的 CE 与 二 阶 统 计量 之 间 等 价 关 系 提出 了 一 种 多 变 
量 正 态 性 检验 的 方法 ， 通 过 计算 分 布 与 同方 差 的 高 斯 分 布 在 CE 统计 量 的 差 值 


10 实 验 代码 : https://github.com/majianthu/cda 
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来 衡量 联合 分 布 的 正 态 性 ， 由 此 得 到 的 正 态 性 检验 的 统计 量 定义 为 


Tee = H.(x) = H.(Xn), (12) 


Hob, x, 是 与 x 具有 相同 方差 的 高 斯 随机 向 量 。 易 知 ， 当 分 布 为 高 斯 分 布 时 
Too = 0; 且 多 元 分 布 的 非 高 斯 性 越 强 ，T。 的 数值 越 大 。 

马 健 同 时 给 出 了 此 统计 量 的 估计 方法 , 包括 了 十 分 简单 的 两 部 分 : s (p 
第 一 项 可 以 由 CE 的 非 参数 估计 方法 得 到 , 第 二 项 即 是 式 由 四 的 值 , 可 先 估计 协 
方差 矩阵 V. 再 解析 计算 得 到 。 

作者 设计 了 两 组 仿真 实验 ， 仿 真 了 两 类 非 高 斯 性 的 情况 ， 并 将 此 检验 方法 
与 5 种 经 典 的 同类 方法 进行 了 对 比 ， 证 明了 此 检验 方法 的 有 效 性 和 对 传统 5 种 
rnt good, 


3.9 双 样 本 检验 


双 样 本 检验 (Two-sample test) 是 统计 学 中 另 一 类 重要 的 假设 检验 方法 , 用 
于 测试 两 组 样本 是 否 来 自 同 一 个 分 布 函数 。 很 多 统计 学 的 理论 方法 可 以 转化 成 
双 样 本 检验 问题 ， 如 对 称 性 测试 就 可 以 转化 成 检验 对 称 变换 的 样本 是 否 同 分 布 
的 问题 ， 又 如 变 点 检测 (Change Point Detection) 其 实 就 是 寻找 一 组 双 样 本 检 
测 中 样本 间 差 异 最 大 的 点 。 同时, 双 样 本 检验 又 具有 广泛 的 应 用 价值 ， 比 如 可 以 
检测 临床 治疗 、 政 策 实施 等 人 为 干预 前 后 目标 变量 是 否 发 生 了 变化 等 。 常 见 的 
双 样 本 检验 方法 很 多 ， 如 双 样 本 T 检验 ，K-S 检验 和 基于 核 函 数 的 检验 等 。 但 
这 些 方法 都 有 各 自 的 不 足 之 处 ， 比 如 T 检验 需要 正 态 分 布 假设 ，K-S 检验 只 能 
作用 于 单 变 量 情况 ， 而 核 函数 方法 需要 超 参 数 的 调试 等 。 

ug [13] 提出 了 一 种 基于 CE 的 双 样 本 检验 方法 , 思想 是 基于 样本 与 检验 标 
注 之 间 的 相关 性 程度 来 定义 检验 统计 量 。 给 定 两 组 样本 Xo = {X01,… ,Xom} ~ 
Po 和 Xi 一 {X11,… ,六 In} ~ 中 ， 该 检验 的 零 假设 为 


= 


Ho : Po = Fr, (13) 


对 立 假设 为 
Hı : Po z Py. (14) 


Tee = H.(X, Yo) — H(X, Yi). (15) 


BAM, 4 Ho AAW, Toe 较 小 ; 而 当 Hi 为 真 时 ， 则 较 大 。 作 者 给 出 了 基于 CE 
非 参 数 估计 的 统计 量 舍 计 方法 。 因 此 ,该 检验 方法 是 多 变量 非 参 数 检验 ， 且 无 需 


llamo (tis: https://github.com/majianthu/mvnt 
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调 参 。 作 者 在 3 组 由 正 态 分 布 和 正 态 Copula 仿真 的 数据 上 验证 该 方法 的 有 效 
性 ， 并 将 方法 与 基于 MI、 核 函数 和 dCor 的 三 种 多 变量 非 参 数 检验 方法 进行 了 
对 比 ， 发 现 该 方法 有 效 检 验 了 仿真 实验 中 的 双 样 本 假设 ， 与 同类 方法 相 比 具有 
同等 或 更 好 的 检验 性 能 四。 


4 讨论 
4.1 理论 应 用 之 间 的 联系 


以 上 介绍 的 CE 的 前 四 个 理论 应 用 之 间 有 着 内 在 的 联系 。 从 理论 基础 上 讲 ， 
它们 都 是 基于 CE 对 统计 独立 和 条 件 独立 的 度量 的 理论 框架 ， 学 习 某 种 内 在 的 
统计 关系 , 这 是 共同 点 。 区 别 在 于 这 四 个 应 用 研究 的 关系 不 同 , 以 及 关联 结构 的 
表示 方式 不 同 。 关 联 发 现 问题 主要 关注 成 对 变量 之 间 的 静态 的 统计 相关 ， 表 示 
为 相关 矩阵 的 形式 ; 结构 学 习 则 关注 一 组 变量 之 间 整 体 的 关联 结构 ， 表 示 为 图 
的 形式 ; 变量 选择 的 目的 是 要 建立 一 个 多 对 一 的 关联 结构 ， 最 终 要 表示 为 函数 
的 形式 ; 时 序 因果 发 现 是 动态 系统 中 的 因果 关系 ， 它 也 可 以 构建 表示 变量 之 间 
因果 关系 的 有 向 图 结构 ， 也 可 以 用 来 进行 变量 选择 ， 构 建 时 序 预测 的 函数 关系 
模型 。 

p. RH CE 度量 统计 独立 和 条 件 独立 关系 ， 可 以 估计 随机 变量 之 间 的 
相关 性 和 因果 性 关系 强度 ， 进 而 通过 相关 或 因果 关系 发 现 表 示 成 基本 的 矩阵 形 
式 ， 通 过 结构 学 习 生 成 直观 的 无 向 或 有 向 图 的 形式 ， 或 者 通过 变量 选择 构造 具 
有 预测 能 力 的 静态 或 动态 时 序 的 函数 模型 的 形式 。 


4.0 ”相关 性 和 因果 性 


相关 性 和 因果 性 是 统计 学 中 的 两 个 基础 性 概念 ， 对 应 于 概率 论 中 的 统计 独 
和 条 件 独立 。 统 计 独 立 和 条 件 独立 是 两 个 不 同 的 概念 ， 但 又 有 着 内 在 的 联系 。 
门 通过 CE 的 概念 ， 给 出 二 者 之 间 的 内 在 联系 的 理论 框架 ， 以 及 在 此 理论 框 
基础 上 的 估计 方法 。 

前 者 可 以 用 CE 来 衡量 。CE 是 一 个 完美 的 衡量 统计 独立 性 /相关 性 的 数学 
概念 ， 具 有 很 多 数学 家 梦 霖 以 求 的 独立 性 度量 的 公理 属性 。 它 等 价 于 信息 论 中 
的 MI 概念 。 后 者 可 以 用 TE 来 衡量 。TE 等 价 于 条 件 MI。 我 们 证 明了 TE 可 
以 用 CE 来 表示 。 也 就 是 说 , 条 件 独立 可 以 通过 统计 独立 来 表示 和 计算 。 因 此 二 
者 之 间 具 有 内 在 的 理论 联系 。 后 者 可 以 用 TE 来 衡量 。TE 等 价 于 条 件 MI. Al 
此 ， 二 者 之 间 具 有 内 在 的 理论 联系 。 

相关 性 不 等 于 因果 性 ， 二 者 是 不 同 的 概念 ， 但 人 们 有 时 却 很 容易 误 把 二 者 
等 同 起 来 。 举 一 个 我 们 做 的 时 序 因果 发 现 的 研究 [10] 作为 例子 加 以 说 明 。 论文 
给 出 了 一 种 利用 CE 来 估计 TE 的 算法 ， 并 采用 了 一 个 环境 气象 的 数据 来 验证 


12 实 验 代码 : https://github.com/majianthu/tst 
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Transfer Entropy 


Transfer Entropy 


lag (hours) 
(a) 温度 到 PM2.5 的 TE 


Association 


Copula Entropy 


lag (hours) 


(c) 温度 和 PM2.5 的 关联 


图 3: 对 温度 到 PM2.5 的 TE 变化 的 分 解 . 
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TE 估计 算法 用 中 。 数 据 是 北京 的 PM2.5 观测 数据 ， 以 及 同时 观测 到 的 北京 地 


区 气象 数据 。 论文 实 验 分 析 了 气象 因素 (温度 、 露点、 气压 和 风速 等 ) 对 PM2.5 
浓度 的 因果 强度 ， 用 从 时 序 观测 数据 中 估计 的 TE 来 衡量 ， 发 现 了 二 者 之 间 的 


因果 关系 变化 规律 。 


这 里 要 强调 的 是 论文 的 讨论 部 分 。 我 们 讨论 对 比 了 时 序 相关 改 
性 ， 发现 即 使 是 气象 因素 和 PM2.5 REZ AH 


E 和 时 序 因果 
FE 微弱 的 情况 下 ， 二 者 之 间 仍 


PRA AAR KA © WESC VA li BE AON Bil cap), 对 此 做 了 说 明 。 子 图 (a) 和 


(c) 分 别 对 应 TE 和 CE， 也 就 是 因果 怕 
几乎 为 0, 而 因果 性 强度 依然 很 高 。 


我 们 认为 ， 这 一 分 析 结 果 是 由 时 序 观测 的 对 


E 和 相关 性 。 我 们 可 以 发 现 ， 相 关 愧 


FE 强度 


性 造成 的 ， 气 象 


因素 对 PM2.5 浓度 变化 的 影响 不 是 即时 的 , 而 是 由 于 大 气 系统 的 内 部 运动 过 程 ， 
有 一 个 潍 后 的 效应 所 致 。 此 时 ,时序 变量 之 间 没 有 即时 的 相关 关系 , 但 存在 时 沛 


讨论 
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也 可 以 应 有 


(Fgh ar 
理论 应 月 


表 1: 三 种 统计 独立 性 度量 框架 的 对 比 . 
CE DC HSIC 
定义 基于 Copula 函数 相关 性 的 非 线性 扩展 核 函 数 空间 的 相关 性 
多 变量 是 distance multivariance dHSIC 
不 变性 单调 变换 不 变 线性 变换 不 变 无 
Pearson 相关 | 高 斯 性 假设 下 等 价 高 斯 性 假设 下 等 价 未 知 
计算 复杂 度 O(n?) O(n*) O(n*) 
独立 性 检验 是 total distance multivariance 需要 满足 核 函 数 条 件 
条 件 独立 性 检验 m [186] [185] 
正 态 性 检验 [12] [187] [188] 
双 样本 检验 [13] [189] [190] 
的 因果 关系 。 
4.3 三 种 理论 框架 的 对 比 
我 们 提出 了 一 个 基于 CE 概念 , 能 够 将 独立 性 和 条 件 独 立 性 两 个 基本 概念 相 


统一 的 理论 框架 ,与 此 类 似 , 核 函 数 的 方法 [r2] 85] 和 距离 相关 的 方法 也 74sd 


计 方 法 也 更 简单 优雅 ， 普 遍 适用 ， 
我 们 利用 表 四 寺 比 了 三 种 统计 独立 度量 概念 ， 可 以 看 到 CE 
论 优势 。 比 如 ，CE 天 然 的 是 一 个 多 变量 的 度量 , 而 其 他 二 者 需要 通过 扩展 定义 
来 满足 多 变量 的 情况 ;CE RAX 
价 等 属性 ， 而 DC 也 具有 类 似 的 等 价 关系 [73], HSIC 则 未 知 。 在 计算 成 本 上 ， 
CE 计算 复杂 度 低 ， 而 其 他 二 者 则 具有 较 高 的 计算 复杂 度 。 


到 这 两 个 概念 的 度量 问题 上 ， 也 分 别 构成 了 类 似 的 理论 框架 。 
T CE 的 理论 框架 更 优越 ， 理 论 上 ，CE 的 定义 更 严格 ; 计算 上 ,基于 CE 的 佑 


日 计算 量 相对 要 小 。 


周 变 换 不 变色 


但 基 


具有 多 方面 的 理 


E 和 在 高 


斯 条 件 下 与 相关 系数 等 


三 种 度量 框架 都 发 展 出 了 一 套 系统 的 方法 论 体 系 ， 包 含 了 独立 性 检验 、 条 


fir VERIZE TERR vr H 
MEVS RS BZ AR EA 
本 学 科 关 注 的 


FE 检 验 、 正 态 诉 
HP, RATAA 


Te TE ARHIVER A ES TERR d 


是 概率 统计 领域 的 基本 概 
目 关 系数 开始 ， 如 何 度量 这 两 种 统计 学 的 概念 就 一 直 是 
焦点 问题 , 有 大 量 的 度量 方法 根据 不 同 的 思想 或 原则 被 提出 来 。 这 


E 检 验 和 双 样 本 检验 等 方法 。 在 变量 选择 和 因果 发 现 两 个 
真实 数据 对 比 三 种 框架 中 的 独立 性 测试 和 条 件 独立 性 测 
试 方法 。 实 验 结果 表明 了 CE 框架 的 (条 件 ) 独立 性 度量 工具 均 优 于 其 他 两 个 


4.4 独立 性 和 条 件 狸 立 性 度量 的 评估 


其 中 ， 就 包括 上 述 的 CE 等 三 种 理论 
那么 哪 一 种 方法 是 最 理想 的 度量 


框架 的 方法 。 
Je? 理论 上 ,为 了 回答 此 问题 ，Renyi [191 


A 
ID 5 


框架 中 的 相应 的 工具 ,能够 更 高 效 、 准 确 地 发 现 更 多 的 相关 或 因果 关系 。 三 个 理 
维和 双 样 本 检验 等 假设 检验 方法 ， 但 
理论 更 严格 ， 也 因此 在 仿真 数据 对 比 实验 上 表现 出 了 更 优越 的 检验 能 


于 CE 的 方法 


具有 基础 性 的 重要 地 位 。 
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曾经 提出 了 著名 的 独立 性 度量 的 公理 系统 , 包括 了 7 条 公理 。 Schweizer 和 Wolf 
[L9] 在 提出 他 们 基于 Copula 的 度量 时 ， 对 Rényi 的 公理 系统 又 做 了 修正 。 
如 何 从 实验 的 角度 评估 对 比 这 些 度量 方法 是 一 个 重要 的 问题 。 马 健 [193] BE 
计 了 一 组 仿真 实验 图 ， 对 现 有 的 16 种 独立 性 度量 和 16 种 条 件 独立 性 度量 方法 
分 别 进 行 了 对 比 (度量 方 法 及 实现 见 表 团 ， 仿 真实 验 考 虑 了 线性 / 非 线性 、 高 斯 
性 / 非 高 斯 性 、 单 变量 /多 变量 等 多 种 不 同 角度 的 组 合 。 同 时 ， 作 者 也 在 3 组 实 
际 数据 上 对 上 述 度量 的 性 能 进行 了 对 比 。 结 果 表 明 ， 基 于 CE 的 独立 性 和 条 件 
独立 性 度量 在 所 有 情况 中 都 表现 了 最 好 的 性 能 ， 给 出 了 最 合理 的 度量 估计 值 。 
总 之 ， 从 理论 的 角度 来 看 ，CE 具有 上 比 其 他 度量 方法 更 坚实 的 数学 基础 和 性 
能 良好 的 通用 非 参数 估计 方法 ; 从 仿真 和 实际 数据 实验 的 结果 来 看 ，CE 在 实验 
上 展现 了 全 面 且 最 好 的 估计 结果 。 因 此 ， 作 者 认为 CE 理论 给 出 了 最 为 理想 的 
独立 性 和 条 件 独立 性 度量 。 


5 实际 应 用 
5.1 理论 物理 学 


热力 学 是 一 门 古老 的 理论 物理 学 分 支 ， 在 19 世纪 由 克 劳 修 斯 、 波 尔 兹 曼 和 
吉 布 斯 等 人 建立 , 研究 物理 系统 的 宏观 状态 (如 温度 ) 与 其 微观 状态 之 间 的 理论 
联系 。 炉 和 热力 学 第 二 定律 是 其 最 为 核心 的 理论 内 容 。 香 农 的 信息 论 就 是 受热 
力学 的 炉 概 念 启发 而 建立 的 。 一 直 以 来 ， 热 力学 和 信息 论 之 间 的 理论 联系 就 是 
相关 领域 的 重要 话题 之 一 。CE 是 从 信息 论 领域 提出 的 数学 概念 ， 它 的 物理 意义 
和 解释 一 直 未 得 到 研究 。 马 健 [10] 将 CE 理论 应 用 于 平衡 态 相关 粒子 系统 中 炉 
的 推导 和 计算 ， 给 出 了 CE 的 热力 学 解释 ， 建 立 了 热力 学 和 信息 论 之 间 的 又 一 
理论 联系 。 


5.2 天 体 物理 学 


红 移 是 宇宙 星体 的 最 重要 信息 之 一 ， 因 其 反映 了 星体 距离 地 球 的 宇宙 距离 ， 
可 以 用 于 研究 星系 演化 和 宇宙 学 。 测 光 红 移 是 一 种 从 宇宙 星体 光学 观测 估计 其 
红 移 的 方法 。 由 于 光学 观测 相 比 于 光谱 观测 更 易于 施行 ， 因 此 测 光 红 移 是 现代 
天 文学 巡天 观测 的 主要 手段 之 一 ， 一 般 在 获得 测 光 红 移 信息 后 再 对 感 兴趣 的 星 
体 进行 光谱 观测 。 机 器 学 习 方 法 已 经 成 为 构建 测 光 红 移 预测 模型 的 主要 方法 之 
一 ， 但 其 预测 准确 度 仍 有 待 提高 。 马 健 [L7] 提出 利用 基于 CE 的 变量 选择 方法 
构建 此 类 估计 模型 ， 以 提高 预测 模型 的 准确 度 。 该 方法 首先 估计 光学 观测 和 红 
移 之 间 的 CE 作为 观测 变量 的 重要 性 度量 ， 再 将 重要 的 观测 变量 作为 模型 的 输 
人 来 预测 红 移 。 他 将 方法 应 用 于 斯 隆 巡 天 类 星体 观测 数据 ， 结 果 表 明 ， 利 用 CE 
选择 后 得 到 的 模型 的 准确 度 要 高 于 未 经 过 选择 的 模型 ， 特 别 是 在 高 红 移 (2 > 4) 


13 实 验 代码 : https://github.com/majianthu/eva 
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表 2: 评估 的 独立 性 和 条 件 独立 性 度量 方法 及 其 软件 实现 . 
算法 包 独立 性 度量 条 件 独立 性 度量 | 语言 
copent CE TE/CI lid) R 
stats Ktau R 
energy dCor R 
dHSIC dHSIC R 
HHG HHG R 
independence Hoeff [77], BDtau [178] R 
Ball Ball [179 R 
qad QAD R 
BET BET R 
MixedIndTests Mixed [197] R 
subcopem2D subcopula [198] R 
EDMeasure MDM [199 CMDM [200 R 
FOCI CODEC | CODEC [209] R 
NNS NNS [203] R 
RCIT R 
cdcsis R 
GeneralisedCovarianceMeasure R 
weightedGCM R 
KPC R 
ppcor R 
parCopCITest R 
causallearn Python 
pycit Python 
knncmi Python 
fcit Python 
CCIT Python 
peit Python 


5 实际 应 用 25 


的 星体 上 ， 预 测 准确 度 得 到 了 明显 提升 吕 . 同时 ,方法 也 选择 出 了 具有 可 解释 性 
的 一 组 光学 观测 变量 ,包括 光度 星 等 、 紫 外 波段 亮度 和 标准 差 、 和 其 他 四 个 波段 
亮度 等 ， 为 进一步 天 体 物 理 研 究 和 光学 观测 仪器 设计 提供 了 科学 证 据 。 


5.3 理论 化 学 


变 构 效应 (Allostery) 被 认为 “生命 的 第 二 秘密 ”, 是 普遍 存在 于 几乎 所 有 蛋 
白质 的 生命 现象 。 它 是 指 变 构 调节 分 子 与 蛋白 质 结合 , 诱导 结合 位 点 以 外 的 远 点 
发 生变 化 的 调节 效应 。 最 常见 的 变 构 系 统 模型 是 变 构 二 状态 模型 ， 描 述 了 变 构 
过 程 的 热力 学 循环 。 此 类 模型 假设 了 受 体 活化 是 二 状态 过 程 , 这 与 NMR 实验 揭 
示 的 多 模 态 过 程 不 相符 合 。 深 入 理解 配 体 诱导 的 受 体 活化 的 分 子 机 制 需要 构建 
新 的 理论 来 理解 配 体 结合 点 和 激活 点 之 间 的 热力 学 耦合 关系 。Cuendet 等 
提出 了 一 种 新 的 理论 ， 称 为 变 构 景观 (Allostery Landscape) ， 定 义 了 热力 学 看 
合 函数 来 量化 生物 分 子 系统 中 的 热力 学 耦合 。 他 们 指出 新 函数 与 copula 密度 函 
数 和 CE 有 密切 联系 ，CE 定义 了 变 构 系统 的 信息 传输 属性 ， 即 配 体 结合 点 和 激 
活 点 之 间 的 信息 传输 。 他 们 将 新 理论 应 用 到 丙 氨 酸 二 肽 的 N 端 和 C 端的 热力 学 
Beam. 


5.4. 化 学 信息 学 


化 学 信息 学 是 化 学 和 信息 学 科 的 交叉 学 科 ， 通 过 表征 化 学 结构 为 数据 ， 解 
决 诸如 分 子 设计 、 化 学 反应 模拟 和 规划 等 问题 。 定 量 构 效 是 该 领域 的 前 沿 问题 ， 
研究 分 子 结构 与 分 子 理化 性 质 之 间 的 定量 关系 ， 以 指导 具有 指定 特性 的 分 子 设 
i. 应 用 广泛 。 分 子 理 化 特性 可 以 理解 为 分 子 结构 的 某 种 对 称 变换 不 变性 ， 而 从 
数据 学 习 得 到 这 种 不 变性 变换 是 分 子 设 计 的 关键 目标 。Wieser 等 将 对 称 变 
换 学 习 问 题 转化 为 信息 瓶颈 (Information Bottleneck) 问题 ， 提 出 了 一 种 对 称 
变换 信息 瓶颈 (Symmetry-Transformation Information Bottleneck: STIB) Jy 
法 。 该 方法 将 分 子 表征 表示 为 由 两 个 部 分 组 成 的 隐 仿 表示， 其 中 一 个 部 分 对 应 
不 变性 表示 ， 基 于 MI (CE) 的 变换 不 变性 , 设计 了 问题 模型 的 学 习 算法 。 作 者 
将 算法 应 用 于 包含 13.4 万 有 机 分 子 的 QMO 数据 库 也 1 机 ,使 用 其 中 具有 固定 化 
学 计量 (C702H10) 的 6095 个 分 子 的 子 集 ， 并 将 其 对 应 的 带 隙 能 量 和 极 性 作为 
目标 不 变性 属性 。 实 验 结果 表明 ，STIB 方法 给 出 了 能 够 学 习 出 表征 分 子 属 性 、 
带 际 能 量 和 极 性 不 变性 的 对 称 变换 ， 验 证 了 方法 的 有 效 性 。 


[E 


5.5 材料 学 


耐 热 型 含 能 材料 是 指 具 有 高 能 量 和 高 热 稳定 性 的 特殊 材料 ， 可 以 在 高 温 的 
环境 下 保持 稳定 性 质 ， 因 此 是 国防 、 航 空 航天 和 地 质 勘 探 等 重点 领域 的 关键 性 
材料 ， 如 宇航 和 高 超 音速 武器 的 推进 燃料 、 深 井 销 探 的 炸药 等 。 但 此 类 材料 数 


14 实 验 代 码 : 1 ttps://github.com/majianthu/quasa 
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量 稀 少 且 实 验 研 究 具 有 极 高 危险 性 ， 因 此 设计 此 类 材料 是 材料 学 家 们 一 直 努 力 
攻 殉 的 挑战 性 难题 。“ 从 头 设计 ” 含 能 材料 需要 经 历 “ 设 计 -筛选 -评估 ”的 流程 ， 
其 中 采用 机 器 学 习 的 方法 构建 材料 结构 -性 质 预测 模型 对 设计 的 分 子 性 质 进 行 预 
测 是 材料 分 子 筛选 的 关键 步 又 。 传 统 的 含 能 分 子 性 质 预测 模型 构建 过 程 只 采用 
了 与 热 稳定 性 线性 相关 的 分 子 特征 ， 没 有 考虑 与 合 能 材料 热 分 解 温度 具有 非 线 
性 关系 的 因素 ， 如 晶体 结构 和 堆积 方式 等 。 田 杰 o) 提出 了 一 种 结合 皮尔 逊 相 
关系 数 和 CE 的 特征 选择 方法 ， 从 分 子 拓扑 结构 和 量子 化 学 计算 特征 中 选择 与 
热 分 解 温度 具有 相关 性 的 特征 ， 并 构建 预测 模型 。 其 中 ，CE 方法 的 引入 是 为 了 
筛选 和 热 分 解 温 度 具 有 非 线性 关系 的 特征 。 他 收集 了 460 个 含 能 化 合 物 ， 并 生 
成 了 包含 286 个 特征 的 数据 集 ， 并 应 用 该 方法 得 选 得 到 了 87 个 特征 ， 再 将 筛选 
的 特征 做 为 随机 森林 和 SVM 等 模型 的 输入 以 预测 化 合 物 的 热 分 解 温 度 ， 最 终 
得 到 了 较 传 统 方法 更 好 的 预测 效果 ， 交 义 验 证 实验 的 预测 误差 控制 在 了 28.5*C. 
他 们 将 方法 应 用 于 自己 设计 的 分 子 生 成 器 生成 的 分 子 ， 最 终 筛 选 出 16 RAR 
好 热 稳定 潜能 且 爆 友 能 力 很 强 的 含 能 分 子 ， 验 证 了 方法 的 实用 价值 。 


5.6 水 文学 


洪水 是 主要 自然 灾害 之 一 ， 洪 水 预报 是 降低 洪水 损失 和 管理 洪水 资源 的 重 
要 手段 。 基 于 降水 数据 的 降水 量 -径流 量 模型 可 以 用 来 预报 一 段 时 间 后 的 洪水 。 
但 是 ， 水 系统 具有 复杂 性 和 非 线性 的 特点 ， 导 致 建立 这 样 的 模型 时 选择 正确 的 
模型 输入 十 分 困难 。 陈 吏 等 iba] 提出 利用 CE 的 方法 来 选择 输入 并 建立 神经 
网 络 预报 模型 。 相 比 于 传统 的 方法 , 基于 CE 的 方法 可 以 建立 高 维 模型 晶 对 单个 
变量 的 边缘 分 布 不 做 假设 ， 同 时 由 CE 来 估计 降水 量 和 径流 量 的 数量 关系 的 误 
差 更 小 。 陈 囊 等 将 方法 应 用 于 建立 金沙 江 流 域 的 洪水 预报 模型 ， 结 果 显 示 利 用 
CE 选择 输入 的 神经 网 络 模型 取得 了 最 好 的 预测 效果 。Li 等 BA 基于 CE 和 机 
器 学 习 方 法 研究 了 长 江上 游 的 月 径流 预报 问题 。 他 们 利用 130 个 全 球 环流 指数 、 
7 个 气象 因子 和 高 场 和 寸 滩 两 个 水 文 站 的 月 径流 量 数据 ， 采 用 CE 等 3 种 变量 
选择 方法 和 5 种 机 器 学 习 模型 进行 组 合 构建 预测 模型 。 结 果 表 明 ，CE 和 LSTM 
组 合 在 高 场 站 获得 了 最 优 预测 性 能 ， 而 随机 森林 和 CE 组 合 在 寸 滩 站 获得 了 满 
意 性 能 。Mo 等 [pe] 提出 了 一 种 长 期 径流 预报 模型 框架 , 结合 了 CE. LSTM 和 
GARCH 三 种 方法 ， 其 中 CE 用 于 筛选 与 径流 有 关 的 预报 因子 。 与 传统 方法 相 
比 ，CE 更 适合 因子 间 具 有 交互 关联 的 复杂 情况 。 他 们 将 方法 应 用 于 洪 泽 湖 和 骆 
马 湖 的 径流 预报 研究 ， 结 果 表 明 ， 与 传统 方法 相 比 ， 该 框架 中 的 CE 方法 不 仅 
成 功 辨别 了 因子 间 的 交互 效应 ， 同 时 还 量化 了 每 个 预报 期 内 各 个 因子 的 贡献 度 ， 
从 而 选 出 了 与 预报 有 关 的 关键 驱动 因子 ， 最 终 该 方法 框架 得 到 了 较 对 比方 法 更 
准确 、 更 稳定 且 更 可 靠 的 预报 结果 。 

干旱 是 另 一 类 重要 的 水 文 事件 和 影响 重大 的 自然 灾害 之 一 。 频 发 的 干旱 严 
重 影响 着 我 国 的 经 济 社会 安全 ， 特 别 是 黄河 流域 的 干旱 威胁 尤其 严重 ， 迫 切 需 
要 开展 流域 干旱 驱动 和 预测 的 研究 。 温 云 亮 等 [po] 利用 CE 理论 分 析 了 河南 省 
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1951-2014 年 逐 月 气象 数据 ， 发 现在 众多 驱动 因子 中 ， 降 水 
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量 、 气 温 、 水 气压 


和 相对 湿度 对 该 地 区 干旱 发 生 的 影响 最 大 。Huang 和 Zhang b 利用 CE 方法 
分 析 了 兰州 地 区 1957-2010 年 的 气象 数据 ， 以 构建 该 地 区 的 干旱 预测 模型 ， 发 


现 该 地 区 的 风速 、 气 温 、 水 气压 和 相对 湿度 是 与 干旱 最 相关 的 气象 因子 。 黄 春 
Hf bg 研究 了 黄河 流域 的 气象 、 水 文 和 干旱 之 间 的 关系 ， 探 讨 了 干旱 的 驱动 机 


制 ， 给 出 了 气象 干旱 和 水 文 干旱 的 概念 ， 并 提出 利 月 


H CE 方法 探究 二 者 之 间 的 


动态 非 线 性 响应 关系 ， 通 过 分 析 黄 河流 域 不 同 区 域 水 文 站 的 气象 和 水 文 干旱 指 


数 ， 得 到 了 水 文 干旱 对 气象 干旱 的 滞后 效应 时 间 ， 为 应 对 干旱 事件 提供 了 参考 。 


Ni 等 Po} 利用 MI 和 CE 之 间 的 等 价 关系 ， 提 出 


了 基于 MI AYRE Copula 结 
构 选 择 方法 ， 并 应 用 于 黄河 流域 干旱 识别 中 特征 变量 建 模 问题 和 多 水 文 站 流量 


相关 结构 建 模 问题 中 。Kanthavel 等 [B0] 利用 CE RUE copula 等 理论 工具 ， 提 
出 了 一 种 综合 干旱 指数 ， 整 合 了 标准 化 降雨 指数 、 干 旱 监测 指数 、 标 准 化 土壤 


湿度 指数 和 标准 化 径流 干旱 指数 等 四 种 指数 ， 可 以 更 好 地 同时 反映 相关 水 文 气 
象 变量 和 不 同类 型 的 干旱 。CE 理论 被 用 来 衡量 新 指数 与 原始 指数 之 间 的 相关 
性 。 他 们 将 该 指数 应 用 于 印度 中 部 的 达 布 蒂 (Tapti) 河流 域 的 单 月 和 四 个 月 尺 


度 的 干旱 研究 中 ， 验 证 了 该 指数 的 有 效 性 ， 并 揭示 了 该 地 区 干旱 的 时 空 分 布 特 
Xe Mohammadi 等 B1] 利用 基于 copula 和 CE 理论 的 三 种 相关 性 度量 估计 方 
法 ， 在 伊朗 三 座 城市 ( 扎 黑 髓 、 恩 泽 利 和 马 什 哈 德 ) 1950-2017 年 的 水 文 观测 数 
据 的 基础 上 ， 分 析 了 三 地 的 干旱 变量 (干旱 强度 、 时 长 和 时 间 间 隔 ) 之 间 的 依赖 


水 文 气象 观测 网 络 是 获取 水 文 信息 的 基础 设施 。 如 何 设计 并 优化 网 络 站 点 
是 一 个 综合 性 的 科学 和 工程 问题 。 一 个 基本 的 设计 原则 是 观测 站 点 之 间 尽 量 统 
计 独 立 ， 这 样 才能 最 大 程度 的 获取 水 文系 统 的 信息 。MI 是 衡量 统计 独立 性 的 主 


要 工具 ， 但 是 其 计算 是 一 个 难题 。Xu 等 Baba) 提 


出 了 一 个 


于 CE 的 多 目标 


优化 的 水 文 观测 网 络 设计 方法 ， 包 括 两 步 : 1) 基于 CE 的 信息 传输 将 观测 站 点 
分 组 ; 2) 对 每 个 分 组 选择 最 优 的 站 点 组 合 。 基 于 CE 的 计算 方法 不 仅 能 够 处 理 
水 文 变量 的 非 高 斯 性 ， 同 时 在 计算 性 能 上 也 更 可 靠 、 更 有 效率 。 作 者 将 方法 应 


用 于 黄河 流域 伊 洛 河水 文 观测 网 络 和 上 海 雨量 观测 网 络 的 设计 。 结 果 显 示 ，CE 


的 方法 计算 精度 更 高 ， 且 可 以 应 用 于 高 维 的 多 变量 估计 情况 。 同 样 基 于 最 少 重 
香 信 息 的 原则 ,Li 等 [bd Bo] 提出 了 一 个 由 两 个 子 目 标 构成 的 网 络 优化 目标 ， 其 


中 一 个 子 目标 基于 CE 而 设计 ， 用 于 衡量 元 余 信息 量 。 作 者 将 此 方法 分 别 应 用 


于 汾 河 径流 观测 网 、 北 京 市 区 以 及 太湖 盆地 的 雨量 观测 网 的 设计 和 优化 ， 绪 果 


网 络 , 再 基于 估计 的 滕 Copula 来 计算 站 点 间 的 CE 


表明 了 方法 可 靠 是 有 效 。 徐 鹏 程 等 OB] 提出 利用 芯 Copula 来 构建 站 点 关系 


值 ， 在 此 基础 上 提出 了 结合 
CE 和 克 里 金 指标 的 站 点 优化 目标 , 利用 滑动 窗口 法 选择 优化 站 点 。 他 们 基于 淮 
河流 域 1992-2018 年 的 日 降水 量 观测 数据 ， 利 用 该 方法 对 该 流域 43 个 雨量 观测 


站 点 网 络 进行 了 优化 ， 结 果 表 明 该 方法 得 到 的 网 络 能 够 较 传统 类 似 方法 得 到 的 


网 络 更 有 效 地 获取 降水 相关 信息 。 杨 惜 岁 ps] 提出 


一 个 结合 


KAME., TRE 
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比 和 NSE 效率 系数 的 站 网 优化 准则 ， 并 基于 CE 理论 提出 了 新 的 MI 计算 方 
法 ， 提 高 了 计算 的 准确 性 。 他 将 方法 应 用 于 美国 查 克 托 哈 奇 (Choctawhatchee) 
河流 域 的 14 个 水 文 站 点 ， 进 行 站 点 优化 研究 ， 最终 得 到 了 只 包含 5 个 站 点 的 网 
络 ， 提 高 了 站 网 的 监测 效率 。 

分 析 河流 的 干流 和 支流 之 间 的 相关 性 对 水 利 工程 设计 、 洪 水 预防 和 风险 防 
控 十 分 重要 。 三 峡 大 坝 作为 长 江上 游 河 段 的 大 型 水 利 工程 ， 其 一 个 重要 功能 就 
是 洪水 控制 ， 研 究 该 河 段 的 主要 河流 相关 性 对 工程 设计 和 安全 运行 具有 重要 参 
ZME. Chen 和 Guo [B9] 提出 利用 CE 来 计算 河流 相关 性 的 强度 ,他们 将 方法 
应 用 于 包含 了 5 条 主要 干支 流 的 长 江上 游 河 段 ， 基 于 干支 流 1951-2007 年 间 的 
洪水 记录 数据 计算 河流 间 的 相关 性 。 他 们 发 现 河流 之 间 总 的 相关 性 并 不 高 ， 这 
与 该 地 区 的 气候 特征 相符 ; 相关 关系 最 强 的 是 岷江 和 沱江 ， 这 是 由 于 二 者 距离 
最 近 ， 且 属于 同一 降水 区 域 ; 金沙 江 和 岷江 、 沱江 之 间 具 有 一 定 的 相关 性 ,对 三 
峡 大 坝 的 洪水 控制 构成 了 一 定 的 威胁 ; 金沙 江 、 嘉 陵 江 、 岷 江 和 沱江 对 长 江 盆地 
的 洪水 发 生 具 有 显著 影响 。 

不 同 河流 和 区 域 的 洪水 事件 春 加 易于 形成 复合 洪水 事件 ， 但 不 同 洪水 过 程 
之 间 的 空间 关系 很 难 利用 现 有 相关 性 分 析 方法 来 准确 地 描述 和 评估 。Wang 和 
Shen [40] Ht} T —4 8638 copula 和 相关 性 评估 的 方法 框架 ， 其 中 利用 了 CE 
HEME Copula 来 估计 MI, CMI 和 R 统计 量 等 相关 性 强度 。 他 们 将 方法 用 
于 评估 长 江上 游 已 鉴别 的 102 个 复合 洪水 事件 中 两 种 极端 径流 序列 变量 (洪峰 
流量 和 洪水 流量 ) 之 间 的 关系 。 结 果 表 明 ， 该 框架 的 多 维 RE copula 模型 能 够 
更 好 地 描绘 复杂 多 样 的 水 文 相关 关系 ， 特 别 是 藤 结 构 表示 了 支流 洪水 汇 和 人 干流 
的 顺序 和 水 文 站 之 间 的 空间 位 置 关系 ; 该 框架 估计 的 三 种 相关 性 强度 比 传统 的 
相关 性 强度 更 好 地 反映 了 复杂 时 空 水 文系 统 的 复合 洪水 事件 中 的 非 线性 关系 。 
黄河 水 沙 调控 关系 到 黄河 治理 的 策略 制定 ， 科 学 认 知 评估 黄河 的 水 沙 通 量 
变化 特征 是 基础 性 的 科学 问题 ， 对 研判 黄河 泥 沙 情势 具有 重要 意义 。 特 别 是 近 
几 十 年 来 ， 受 气候 变化 和 人 类 活动 的 春 加 影响 ， 黄 河水 沙 含量 发 生 了 显著 变化 ， 
需要 准确 估计 径流 量 和 输 沙 量 的 分 布 变化 情况 。Copula 函数 是 分 析 这 种 分 布 的 
基本 数学 工具 ， 但 此 类 问题 往往 观测 样本 较 少 ， 难 以 准确 估计 Copula 函数 的 
参数 。Qian 等 提出 了 一 种 基于 CE 和 全 相关 (Total Correlation) 关系 的 
Copula 参数 估计 方法 ， 用 于 解决 在 样本 较 少 的 情况 下 的 Copula 参数 估计 问题 。 
他 们 将 方法 应 用 于 黄河 西柳 沟 河流 域 1960-2016 年 间 年 度 径 流量 和 输 沙 量 的 数 
据 的 分 析 ， 该 流域 在 1999 年 前 后 水 沙 关系 发 生 了 显著 变化 ， 但 数据 较 少 。 分 析 
结果 发 现 ， 对 于 1999 年 前 后 的 两 个 时 段 ， 新 方法 均 得 到 比 两 种 传统 方法 更 准确 
的 Copula 参数 估计 ， 对 数据 的 拟 合 更 好 。 

流域 分 区 是 水 文学 研究 的 重要 方法 ， 根 据 水 文 相似 性 特征 划分 流域 内 相似 
性 区 域 ， 可 解决 无 水 文 观测 地 区 的 水 文 计算 等 难点 问题 。 径 流 响 应 是 重要 的 流 
域 水 文 特征 ， 根 据 流域 水 文 站 点 观测 之 间 的 相似 性 做 流域 分 区 是 一 种 基本 的 研 
究 路 径 。 传 统 的 流域 分 区 方法 基于 相关 性 评价 ， 往 往 难以 反映 水 文系 统 内 在 的 
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复杂 关系 。 刘磊 等 MA 提出 采用 基于 CE 的 R 统计 量 来 衡量 节点 间 的 径流 相似 
性 ， 再 在 此 基础 上 利用 社团 检测 算法 对 流域 进行 分 区 。 他 们 将 方法 应 用 于 郡 阳 
湖水 系 ， 利 用 该 流域 的 水 文 站 观测 对 流域 进行 了 分 区 ， 并 将 方法 与 传统 的 K 均 
值 聚 类 方法 进行 了 对 比 。 结 果 表明 ， 该 方法 能 够 有 效 捕捉 流域 内 湖 库 对 径流 的 
调节 作用 ， 从 而 得 到 较 传统 方法 更 合理 的 流域 分 区 。 

多 站 点 径流 生成 是 随机 水 文学 的 主要 问题 之 一 ， 生 成 的 流量 信息 对 任何 水 
资源 管理 都 是 必 不 可 少 的 。 在 径流 数据 记录 有 限 的 情况 下 ， 生 成 多 站 点 径流 数 
据 十 分 必要 ， 需 要 设计 相应 的 数据 生成 模型 。Porto 等 [13] 提出 了 结合 广义 线 
性 模型 (GLM) 和 Copula 函数 的 多 站 点 年 度 径流 生成 模型 ， 前 者 表示 时 序 结 
构 ， 后 者 为 多 站 点 的 空间 相关 性 建 模 。 在 评价 模型 性 能 时 ， 作 者 采用 了 包括 CE 
在 内 的 多 个 统计 描述 性 指标 ， 其 中 CE 用 来 衡量 非 线性 的 全 关联 。 作 者 将 该 模 
型 用 于 生成 巴西 的 雅 瓜 里 比 (Jaguaribe) -天 都 市 水 库 系统 的 多 站 径流 时 序数 据 ， 
结果 显示 模型 表现 出 了 优 于 当前 最 好 水 平 的 性 能 ， 特 别 是 在 衡量 多 站 相关 性 的 
CE 指标 上 ， 较 其 他 模型 更 接近 于 历史 观测 数据 。 

南水北调 工程 是 当今 世界 最 大 的 水 利 工程 ， 承 担 着 从 长 江 的 汉江 流域 髓 江 
口水 库 向 北方 地 区 城市 调 水 的 战略 任务 。 准 确 的 人 库 径流 预报 是 科学 合理 的 供 
水 调度 的 前 提 条 件 ， 能 够 使 工程 更 充分 高 效 地 利用 自然 界 的 水 资源 。 但 传统 方 
法 构建 的 预报 模型 很 难 满足 调 水 预报 精度 的 要 求 ， 原 因 在 于 传统 分 析 方法 不 能 
处 理 水 文系 统 的 非 线性 特性 ， 导 致 了 构建 的 入 库 径 流 预 报 模型 不 合理 从 而 预测 
性 能 不 高 。 黄 朝 君 等 [MA 构建 了 丹江口 水 库 的 月 入 库 径流 预报 模型 ， 利 用 CE 
选择 了 一 组 气象 水 文 因子 作为 模型 的 输入 ， 得 到 的 模型 具有 明显 优 于 传统 模型 
的 预报 性 能 。 模 型 成 功 的 原因 在 于 采用 CE 选择 的 预报 因子 与 中 长 期 入 库 径流 
密切 相关 ， 印 证 了 印度 洋 偶 极 子 事件 和 南海 副 高 活动 与 汉江 流域 夏季 强 降水 之 
间 的 内 在 联系 ， 符 合 自然 界 水 文系 统 的 运行 规律 。 


5.7 气候 学 


气候 变化 是 气候 学 研究 的 课题 之 一 ， 它 不 仅 体现 在 水 文 气候 变量 幅度 上 的 
变化 ， 也 体现 在 变量 的 季节 和 周期 变化 的 分 布 上 。 这 种 变化 会 对 降水 和 气温 的 
强度 和 频率 造成 影响 ， 导 致 极端 天 气 (如 洪水 、 干旱 和 热浪 等 ) 的 增加 。 降 水 和 
气温 的 相关 性 会 加 剧 联合 极端 天 气 的 发 生 和 强度 。 研 究 气候 变化 对 降水 和 气温 
相关 结构 的 影响 是 一 个 重要 的 问题 。Hao 和 Singh [ir] 利用 CE 度量 工具 研究 
了 气候 变化 对 这 种 相关 结构 的 影响 。 研 究 采用 了 美国 德 克 萨 斯 州 达拉斯 市 沃 斯 
堡 (Fort Worth) 在 1948-2010 年 间 的 每 日 降水 和 气温 数据 ， 以 每 5 年 为 期 计 
算 温度 和 降水 之 间 的 负 CE 值 作为 相关 结构 强度 ， 发 现 该 地 区 的 温度 和 降水 之 
间 的 相关 结构 强度 (f CE fH) 从 1948-1980 年 间 的 0.18 下 降 到 了 1948-2005 
年 间 的 0.06， 说 明了 气候 变化 对 该 地 区 水 文 气候 变量 之 间 关系 造成 了 影响 。 

气候 评估 是 科学 应 对 气候 变化 的 基础 性 工作 ， 其 目标 是 监测 和 分 析 全 球 和 
地 区 气候 及 其 变化 ， 特 别 关 注 于 变化 趋势 和 极端 气候 风险 等 。 气 候 分 类 是 指 根 
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据 相 似 气候 特征 将 地 区 分 类 ， 最 常见 的 Kóppen 分 类 法 采用 的 气候 特征 是 温度 


模式 和 季节 性 降水 。Condino [46] 提出 了 一 种 基于 Jensen-Shannon 距离 的 动态 


分 类 算法 , 其 中 基于 JS 距离 的 分 类 准则 采用 了 


T CE 理论 的 表示 方法 并 进行 


估计 。 他 将 方法 应 用 于 欧洲 气候 评 佑 问题， 根据 1951-2008 年 间 欧 洲 气象 观测 
站 每 日 温度 和 降水 数据 对 欧洲 25 座 主 要 城市 的 气候 进行 分 类 。 结 果 表明 ， 其 提 
出 的 算法 成 功 区 分 了 分 别 属于 欧洲 南部 和 北部 气候 带 的 城市 群 ， 当 进一步 考虑 


南北 气候 过 渡 带 时 ， 算 法 也 对 欧洲 中 部 城市 给 出 了 与 实际 气候 情况 相符 的 合理 


的 分 类 结果 。 


5.8 气象 学 


环境 污染 是 现代 社会 的 主要 问题 之 一 。 从 气象 学 的 角度 分 析 大 气 污 染 的 成 


因 ， 明 晰 其 内 在 机 理 ， 有 助 于 更 好 的 理解 污染 问题 ， 进 而 预测 、 干 预 和 管理 污 


染 。 理 解 大 气 系统 中 的 因果 关系 是 问题 的 关键 。 


基于 对 气象 因素 和 环境 污染 物 


的 观测 , 可 以 利用 统计 学 中 的 TE 方法 分 析 气 象 因素 对 环境 污染 的 因果 关系 。 马 


fat (LO) 利用 其 提出 的 基于 CE 的 TE 估计 方法 


(RB), rdc 


象 和 PM2.5 连续 观测 数据 [184], BATURAZ PM2.5 浓度 的 24 小 
时 时 沾 内 的 因果 强度 变化 图 ( 见 图 财 。 变 化 图 显示 ， 四 种 气象 因素 对 PM2.5 浓 
度 的 因果 强度 大 致 经 历 快速 升 高 和 缓慢 增加 两 个 阶段 。 作 者 还 特别 讨论 和 验证 


了 该 方法 的 平稳 性 假设 和 马尔 科 夫 性 假设 在 此 中 尺度 数值 分 析 问 题 上 的 适用 性 。 


论文 所 得 到 的 因果 变化 图 反映 了 大 气 系 统 运动 的 内 在 动态 特征 ， 增 加 了 人 们 对 
PM2.5 污染 的 气象 成 因 的 理解 。 同 时 ， 得 到 的 时 序 因果 关系 也 为 整合 气象 因素 ， 


构建 更 优 性 能 的 污染 预报 模型 提供 了 参考 依据 。 


GE AB Abr) 


有 效 的 大 气 污染 预测 对 于 污染 防 控 具 有 基础 性 作用 ， 也 利于 保护 居民 健康 。 
但 当前 的 大 气 污 染 (如 PM2.5 浓度 ) 预测 在 准确 性 和 稳定 性 上 还 很 难 满足 要 求 。 
开发 性 能 更 高 的 预测 模型 受到 了 广泛 的 关注 。 在 综合 考虑 了 传统 方法 的 不 足 的 


基础 上 ，Wang 等 tm 提出 了 一 种 新 的 大 气 污染 预测 预警 方法 ,使 用 了 CE 和 多 


种 机 器 学 习 模型 的 组 合 方法 ，CE 方法 在 其 中 被 用 来 选择 对 PM2.5 浓度 波动 有 
影响 的 因子 ， 以 用 于 构建 最 终 模型 。 他 们 将 开发 的 方法 应 用 于 上 海 和 广州 两 地 
的 实际 大 气 污 染 预 测 预警 系统 ， 结 果 表 明 新 方法 能 得 到 较 其 他 对 比方 法 更 好 的 


基于 LSTM 和 进化 算法 相 结合 的 方法 建立 预 涡 


年 的 历史 数据 上 取得 了 良好 的 预测 性 能 。Chen m f 


预测 准确 性 和 稳定 性 。Wnu 等 m 提出 了 一 种 基于 CE 的 PM2.5 预测 方法 ， 利 
用 CE 计算 气象 因素 与 大 气 污染 物 浓度 之 间 的 相关 性 来 选取 模型 输入 特征 ， 在 


模型 。 该 方法 在 北京 地 区 2016 
用 CE 从 多 种 因子 中 选 出 


= 


影响 PM2.5 的 因子 ， 再 利用 自 注 意 力 机 制 增强 的 时 序 卷 积 网 络 (TCNA) 构建 


预测 PM2.5 浓度 的 模型 ， 他 将 方法 应 用 于 北京 


7 12 个 区 域 2013 至 2017 年 逐 


小 时 气象 和 污染 观测 数据 ， 得 到 的 预测 模型 具有 高 度 的 可 解释 性 和 预测 准确 度 。 
全 球 气候 变 暖 导 臻 我国 华南 地 区 的 台风 强度 越 来 越 强 ， 强 台风 给 该 地 区 造 
成 了 严重 的 损失 。 根 据 台 风灾 害 的 观测 数据 预测 灾情 程度 ， 是 台风 灾害 的 研判 
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图 4: 四 种 气象 因素 到 PM2.5 浓度 的 24 小 时 时 汪 内 因果 强度 变化 图 . 
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和 应 对 的 重要 参考 。 但 台风 灾害 影响 因子 较 多 ， 且 与 灾情 之 间 具有 非 线性 关系 ， 
给 预测 模型 构建 造成 困难 。 陈 燕 歼 等 [bo] 基于 CE 等 工具 ， 提 出 了 一 种 台风 灾 
预测 模型 构造 方法 。 他 们 基于 1985-2014 年 间 登 陆 或 影响 广西 的 44 个 台风 灾 
害 数据 ， 以 及 同期 与 致 灾 、 承 灾 和 防 灾 减 灾 相 关 的 灾情 统计 数据 ， 构 建 了 21 个 
灾害 影响 因子 ， 再 利用 CE 入 选 与 灾情 指数 最 相关 的 因子 ， 发 现 最 大 风速 、 最 
低 气 压 、 暴 十 时 长 和 暴雨 极 值 与 灾情 指数 最 相关 ， 能 够 客观 地 反映 实际 情况 。 实 
验 也 表明 ， 利 用 CE 第 选 的 因子 构建 的 模型 的 预测 精度 要 高 于 同类 对 比方 法 构 
建 的 模型 ， 可 为 广西 台风 灾情 预测 提供 参考 。 


aj 


5.9 环境 学 


大 气 污染 是 现代 城市 面临 的 主要 环境 问题 之 一 ， 严 重 影响 城市 运行 和 居民 
生活 。 对 大 气 污染 扩散 规律 的 分 析 是 环境 科学 的 重要 问题 ， 对 环境 监管 部 门 更 
好 地 了 解 污染 规律 并 有 效应 对 具有 基础 性 的 指导 作用 。 大 量 的 城市 污染 气象 观 
测 网 点 生成 的 数据 , 有 助 于 分 析 扩 散 规律 进而 对 污染 扩散 作出 预测 。 吴 京 鹏 
提出 了 一 种 节点 无 特征 网 络 链 路 预测 算法 ， 并 将 其 应 用 于 城市 大 气 污染 传播 路 
径 建 模 和 预测 问题 。 他 将 方法 应 用 于 兰州 市 辖区 环境 监测 站 网 2017 年 的 PM2.5 
观测 数据 ， 利 用 基于 CE 的 TE 算法 构建 了 传播 网 络 ， 再 应 用 提出 的 网 络 链 路 
预测 算法 预测 污染 传播 路 径 。 实 验 结果 表明 ， 该 方法 可 以 准确 发 现 污染 传播 路 
径 ， 为 兰州 城市 污染 治理 策略 制定 提供 了 理论 支撑 。 

AFLY (NOx) 是 火力 发 电厂 排放 的 主要 污染 物 之 一 ， 需 要 通过 实施 监测 
来 严格 管控 其 排放 浓度 。 电 厂 一 般 采 用 SCR 脱 硝 反应 器 的 中 和 方法 控制 NOx 
排放 浓度 , 但 控制 过 程 存在 大 延迟 ,无 法 做 到 精确 控制 ,一 般 采 用 软 测量 模型 巴 
测 与 SCR 控制 器 配合 来 达成 控制 目标 。 金 秀 章 等 bz] 提出 了 一 种 VMD-Bayes- 
Lasso 相 结合 的 软 测量 算法 框架 ， 以 预测 NOx 排放 浓度 。 该 方法 框架 首先 利用 
CE 筛选 与 NOx 浓度 相关 的 系统 变量 ,以 预测 分 解 后 的 NOx 浓度 模 态 变量 , 再 
秋 加 得 到 最 终 预测 结果 ， 最 后 设计 了 基于 Lasso 算法 的 模型 误差 预测 模型 来 校 
正 预测 结果 。 他 们 在 宁夏 某 660MW 燃 煤 电 厂 的 数据 上 验证 了 该 算法 框架 ， 得 
到 了 较 对 比方 法 更 好 的 预测 精度 ， 其 中 ， 通 过 CE 方法 分 析 了 系统 变量 内 部 以 
及 和 目标 变量 之 间 的 相关 度 ， 达 到 了 精简 模型 和 提高 预测 精度 的 目的 。 


5.0 生态 学 


在 生态 学 中 ， 动 物 运 动 轨迹 研究 是 一 个 重要 的 基本 问题 ， 可 以 揭示 种 群 活 
动 规律 、 种 群 间 的 竞争 关系 ， 以 及 种 群 和 环境 资源 之 间 的 互动 等 基本 生态 学 过 
程 。 信 息 技 术 在 生态 领域 的 利用 生成 了 大 量 的 动物 轨迹 数据 ， 对 这 些 数据 的 分 
析 需 要 合理 的 建 模 方法 。 环 线 数据 (circular-linear data) 是 生态 学 中 的 一 种 常 
见 的 时 序数 据 类 型 ， 描 述 了 离散 化 的 动物 运动 过 程 ， 包 括 运动 方向 和 运动 距离 
两 个 变量 。 此 二 变量 之 间 通 常 是 相关 的 ， 即 直线 运动 时 运动 方向 较 小 而 运动 距 
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离 较 大 ， 转 向 运动 时 运动 方向 较 大 而 运动 距离 较 小 ， 同 时 运动 方向 变量 的 分 布 


一 般 是 对 称 的 ， 因 此 通常 采用 角度 对 称 的 环线 copula. 函数 作为 工具 对 此 类 数据 
进行 建 模 ， 并 利用 基于 copula 的 相关 性 度量 来 衡量 二 者 之 间 的 相关 性 。Hodel 
和 Fleberg [b3] 实现 了 环线 copula 的 建 模 和 分 析 的 算法 工具 包 Cylcop， 其 中 
法 作为 相关 性 度量 方法 ， 用 于 分 析 动 物 轨迹 数 


包含 了 基于 CE 的 互信 息 估计 算 
据 。 


5.11 动物 形态 学 


动物 形态 学 是 动物 学 最 古老 的 分 文 ， 研 究 动物 体 的 形态 和 解剖 结构 以 及 其 


在 发 育 和 进化 过 程 中 的 变化 规律 


。 作 为 动物 学 的 基础 学 科 ， 形 
物 分 类 的 基础 ， 比 如 鱼 类 的 形态 分 类 。 由 于 鱼 类 的 外 形 相 似 , 对 


往往 会 出 现 偏差 , 这 就 需要 研究 鱼 类 结构 形态 之 间 的 相似 人 
等 [b4] 提出 了 一 种 图 形 形 似 度 度量 的 估计 方法 ，; 


量 ， 再 利用 CE 估计 方法 估计 向 


态 学 的 研究 是 动 


其 种 类 进行 鉴别 


度量 问题 。Escolano 


什 图 形 转换 为 多 维 流 形 艇 和 人 向 
量 之 间 的 MI 作为 图 形 相似 度 度 量 。 他 们 将 方 
法 应 用 到 GatorBait 海洋 鱼 类 图 形 数据 库 ， 该 数据 库 包 含 了 30 个 类 别 的 100 
个 鱼 类 外 形 三 角 网 格 图 形 。 由 于 每 类 对 应 的 是 鱼 类 属 而 不 是 种 ， 因 此 同一 类 别 
间 具 有 形态 差异 ， 给 分 类 造成 困难 。 他 们 利 月 


新 度量 方法 对 数据 库 中 的 鱼 类 图 


形 进行 分 类 ， 实 验 表明 新 的 度量 方法 在 数据 集 上 得 到 了 较 传 统 方法 更 好 的 分 类 


性 能 。 


鲍 是 一 类 重要 的 海洋 贝 类 , 具有 较 高 的 营养 价值 和 巨大 的 经 济 价值 。 鲍鱼 的 


形态 学 研究 是 通过 形态 学 变量 的 


方向 , 并 基于 CE 理论 给 出 其 快速 ] 
UCT 鲍鱼 数据 集 ， 分 析 了 鲍鱼 的 长 度 、 直 径 、 身 高 和 体重 等 形 
数据 ， 明 晰 了 鲍鱼 生长 过 程 中 年 龄 与 这 些 变 量 之 间 的 因果 关系 规律 。 


5.12 农学 


测量 来 研究 其 生长 过 程 和 种 群 分 布 等 问题 ， 对 
该 类 海洋 资源 的 管理 具有 重要 意义 。Purkayastha 和 Song [55] 提出 了 一 种 新 的 
因果 关系 度量 概念 ， 称 为 非 对 称 MI (AMD) ， 用 于 判断 变量 之 间 因果 预测 性 的 


日 鲁 棒 的 舍 计 方法 。 他 们 将 AMI 方法 应 用 于 


态 学 参数 的 测量 


全 球 变 暖 导致 的 环境 变化 会 直接 影响 粮食 产量 ， 从 而 加 重 世 界 粮 食 安 全 问 


题 。 水稻 是 最 重要 的 谷物 作物 之 一 ， 占 我 国 谷物 产量 的 四 成 左 
安全 至 关 重 要 。 研 究 气 候 变 化 如 何 影 响 水 稳产 量 并 给 出 对 策 是 关系 到 我 国 粮食 


安全 的 重要 问题 。Zhang 等 b] 


作物 模型 中 的 模拟 水 称 生 长 和 产 


， 对 我 国 的 粮食 


利用 作物 模型 和 大 气 环流 模式 研究 了 气候 变化 
对 我 国 南方 (江南 和 华南 ) 两 季 稻 生长 和 产量 的 影响 及 对 策 。 研究 采用 了 DSSAT 


量 的 CERES-rice 子 模块 和 CMIP6 中 的 四 种 


大 气 环流 模型 《GCMs)， 并 利用 CE 和 随机 森林 分 析 各 个 月 份 的 气象 因子 和 作 


物产 量 之 间 的 非 线 性 关系 。 他 们 利 月 


每 个 GCM 的 27 组 数据 驱动 南方 54 个 地 


点 的 水 稻 作物 模型 以 得 到 最 终 产 量 , 同时 研究 了 播种 日 期 的 影响 。 研究 发 现 , 和气 
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象 因子 的 上 升 趋势 会 提前 水 稻 成 熟 期 并 降低 产量 ; 如 果 再 考虑 COs 作用 ， 早 称 


产量 则 会 增加 ， 而 晚稻 仍 会 减产 ; 


的 关系 也 是 气象 因子 中 最 强 的 ; 提前 早稻 播 种 和 延 后 晚稻 播种 可 能 会 增加 一 定 
的 产量 。 该 研究 的 结论 为 政府 和 农民 应 对 未 来 的 气候 变化 指明 了 路 径 ， 为 采用 
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根据 CE 计算 结果 ， 两 季 稻 产量 和 CO 浓度 


相应 的 适应 性 对 策 提 供 了 重要 参考 。 


5.13 认 知 神经 学 


认 知 神经 学 通过 分 析 大 脑 活 动 的 各 种 模 态 的 观测 数据 ， 理 解 大 脑 作 为 信息 
处 理 器 官 ， 对 外 界 刺激 的 表示 、 处 理 和 通讯 的 机 理 。 作 为 一 个 非 线性 的 统计 度 


困难 ， 使 其 难以 得 到 广泛 的 应 用 。 


量 ，MI 被 认为 是 分 析 大 脑 信号 间 关 联 的 理想 统计 工具 。 但 由 于 MI 的 估计 十 分 


Ince 等 [b8] 根据 MI 和 CE 之 间 的 等 价 关 系 ， 


提出 了 一 种 MI 估计 方法 ， 称 为 高 斯 Copula 互信 息 (Gaussian Copula Mutual 
Information: GCMI)。GCMI 方法 利用 了 CE 与 边缘 函数 无 关 的 性 质 ， 首 先 将 


每 个 变量 的 边缘 函数 转化 为 高 斯 


作 。Ince 等 将 GCMI 与 其 他 MI 


函数 ， 从 而 得 到 联合 高 斯 分 布 ， 再 根据 所 得 高 


斯 分 布 相 关 和 矩阵 与 MI 的 关系 来 计算 MI。 该 方法 简单 方便 ， 且 与 分 布 无 关 。 但 
由 于 从 高 斯 分 布 数据 计算 MI 是 有 偏差 的 ， 因 此 此 方法 还 需要 进行 校正 纠偏 操 


估计 方法 进行 了 对 比 ， 并 将 其 应 用 于 分 析 人 脸 


检测 任务 的 EEG 数据 BI 和 听觉 语音 刺激 任务 的 MEG 数据 [b9]. 在 人 脸 检测 


任务 的 实验 中 ，GCMI 被 用 来 计 


算 图 像 内 容 与 认 知 响应 之 间 的 关联 强度 ， 并 成 


功 选 出 认识 响应 敏感 区 域 (图 像 中 的 眼睛 部 分 )。 在 听觉 刺激 实验 中 ，Ince 等 研 
究 了 语音 中 的 节奏 特征 对 大 脑 听觉 的 节律 同步 的 影响 。 通 过 对 语音 刺激 的 EEG 


响应 数据 的 分 析 ， 作 者 发 现 了 改 


同步 的 降低 。 在 此 实验 中 ，GCMI 是 数据 分 析 的 主要 工具 。 


变 音节 和 词汇 之 间 的 停顿 会 导致 听觉 delta ay 


在 GCMI 算法 的 基础 上 ，Comprisson 等 [60] 提出 了 基于 信息 论 的 群体 层 


面 分 析 大 脑 认 知 网 络 的 方法 , 将 


FE 参数 的 排列 操作 与 信息 度量 相 结 合 , 用 于 分 析 


固定 效果 或 随机 效果 模型 ， 以 适应 多 人 间 和 多 次 任务 间 的 变化 。 他 们 将 方法 应 


数据 中 的 高 Gamma 行为 (High 


用 于 两 个 已 有 研究 的 数据 : 第 一 个 研究 分 析 人 执行 认 知行 为 映射 任务 时 的 MEG 


Gamma Activity) ， 发 现 了 任务 相关 的 大 脑 网 


络 , 涉及 多 个 运动 区 、 体 感 区 和 视觉 皮层 区 域 等 ; 第 二 个 研究 分 析 奖 惩 学 习 任 务 
的 前 脑 岛 (anterior Insula) SEEG 数据 ， 发 现 了 奖惩 任务 的 响应 时 延 ， 以 及 奖 


和 惩 响 应 的 显著 差别 。 汪 方 部 等 [6 
先 采 用 GCMI 构建 脑 认 知 网 络 ， 


从 选择 的 脑 网 络 连接 进行 认 知 水 平分 类 。 他 们 将 方法 应 用 于 98 名 葡萄 牙 老人 的 


静 息 态 (MRI 数据 ， 发 现 提出 的 


能 够 最 终 得 到 较 同 类 方法 更 高 的 分 类 准确 率 。 
语音 理解 是 人 脑 的 主要 认 知 功能 ， 研 究 人 脑 的 神经 活动 对 语音 信息 的 编码 


和 解析 是 认 知 神经 学 的 重要 问题 。 


[61] 提出 了 一 种 老年 人 认 知 水 平分 类 方法 ， 首 
再 利用 GCMI 进行 特征 选择 ， 最 后 利用 SVM 


方法 能 够 捕捉 数据 中 脑 区 间 的 非 线性 关系 ， 


中 的 低频 时 序 信息 ， 研 究 表 明 其 


码 
语音 包 络 (speech envelope) 包含 了 语音 信号 
可 以 解释 大 部 分 神经 响应 的 变化 过 程 ， 语 音 包 
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络 跟踪 就 是 通过 脑 电 图 等 手段 研究 语音 包 络 及 其 神经 响应 之 间 关 系 的 问题 。 由 
于 大 脑 的 非 线 性 特征 ， 常 用 的 线性 模型 不 能 很 好 的 表示 这 种 关系 。MI 作为 非 线 
性 关系 度量 工具 ， 被 认为 能 够 捕 提 语音 包 络 和 神经 响应 之 间 的 非 线性 关系 。De 
Clercq 等 [62] 利用 根据 CE 理论 构建 的 GCMI 工具 ， 基 于 两 组 故事 讲述 语音 和 
相应 采集 的 EEG 数据 ， 对 比 了 线性 模型 和 MI 分 析 对 大 脑 非 线性 成 分 的 刻画 能 
力 。 实 验 结果 表明 MI 分 析 检测 到 了 线性 模型 以 外 的 显著 的 非 线性 成 分 ， 证 明 
了 GCM 是 比 线 性 模型 更 适合 于 研究 神经 包 络 跟踪 问题 的 工具 。 作 者 也 实验 验 
证 了 与 传统 的 MI 估计 方法 相 比 ， 基 于 CE 原理 的 GCMI TERASE, 
和 适合 多 变量 分 析 等 诸多 优点 。 

建立 神经 信号 之 间 的 因果 关系 对 理解 脑 连接 至 关 重 要 ， 因 果 关 系 连 接 反映 
了 在 脑 认 知 过 程 中 脑 网 络 内 部 不 同 区 域 之 间 的 信息 传输 方向 ， 刻 画 了 大 脑 认 知 
过 程 的 脑 区 之 间 动 态 关系 特征 。 相 比 于 传统 的 格 兰 杰 因 果 检 验 ， 无 模型 假设 的 
TE 更 适合 此 类 因果 分 析 任 务 。Redondo 等 [63] 基于 CE 理论 提出 了 一 种 新 的 
TE #44, FC STE (Spectral Transfer Entropy)， 用 于 计算 频 域 滤波 后 的 时 域 
言 号 之 间 的 TE。 与 直接 在 原始 信号 上 计算 TE 相 比 , 在 特定 频 域 上 计算 的 STE 
更 具有 神经 学 意义 的 可 解释 性 。 他 们 将 方法 应 用 于 注意 缺陷 多 动 障碍 (ADHD) 
患者 EEG 信号 的 分 析 ， 利 用 STE 构建 因果 关系 脑 连 接 网 络 ， 发 现 了 ADHD 
患者 与 健康 人 之 间 与 注意 力 相关 的 脑 连接 网 络 连接 的 不 同 。 实 验 结果 表明 ， 健 
康 人 在 与 注意 力 和 受 控 记 忆 存 取 相关 的 0 和 a 频段 表现 出 明显 的 因果 联系 ， 而 
ADHD 患者 的 脑 网 络 连 接 则 主要 在 6 振荡 上 ， 可 解释 为 与 注意 力 缺 陷 有 关 。 


5.14 运动 神经 学 


肌肉 协同 (Muscle Synergy) 是 运动 的 基础 ， 指 人 完成 各 种 动作 时 肌肉 组 合 
之 间 时 空 上 的 动作 协同 。 人 体 的 运动 控制 系统 是 一 个 具有 宛 余 自由 度 的 系统 ,一 
般 认 为 神经 系统 通过 运动 基 元 的 组 合 协同 策略 来 完成 一 个 动作 。 运 动 控 制 研究 
的 一 个 重要 基本 问题 是 鉴别 运动 控制 中 简化 的 基本 肌肉 协同 策略 。 通 过 分 解 运 
动 过 程 的 肌 电 (Electromyographie: EMG) 信号 数据 理解 运动 控制 潜在 的 基本 
协同 机 理 是 基本 研究 手段 ， 但 如 何 处 理 信号 中 的 非 线性 是 主要 的 难题 之 一 ， 基 
于 CE 的 MI 估计 是 处 理 此 难题 的 有 力 工具 。Wm 等 iod bs] 将 多 元 变 分 模 态 分 
解 与 基于 CE 的 MI 相 结合 ， 构 建 了 肌肉 耦合 网 络 模型 ， 基 于 表面 EMG 数据 
分 析 了 健康 人 伸手 运动 过 程 中 上 肢 肌 肉 间 的 时 空 协同 ， 成 功 刻画 了 肌肉 耦合 关 
系 强度 。Reilly 和 Delis [66] 提出 利用 基于 CE 的 GCMI 来 度量 EMG 信号 之 
间 的 时 空 关联 关系 ， 再 利用 矩阵 分 解 的 降 维 方法 来 发 现 EMG 信号 时 空 关联 中 
的 基本 的 肌肉 协同 模式 。 他 们 采集 了 人 执行 点 到 点 动作 运动 的 EMG 数据 ， 将 
方法 应 用 于 数据 ， 得 到 了 有 生理 学 意义 的 肌肉 协同 时 空 模式 。Zhu 等 [67] 提出 
了 基于 CE 的 表示 TE, HAJ RM copula 估计 CE 进而 估计 TE。 他 们 将 该 
方法 应 用 于 上 肢 肌 肉 间 耦合 网 络 的 研究 ， 基 于 疲劳 / 非 疲劳 状态 下 上 肢 肌 肉 运动 
的 SEMG 数据 构建 了 肌肉 类 合 网 络 ， 发 现 疲劳 状态 下 的 肌肉 群 间 耘 合 关系 较 非 
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疲劳 状态 逐渐 加 深 。 金 国美 等 bd 提出 利用 小 波 分 析 和 CE 估计 相 结合 的 方法 ， 
分 析 健 康 人 自主 运动 下 的 肌肉 疲劳 状态 的 sEMG 信和 号 数据 ， 发 现在 肘 关 节 届 曲 
运动 中 ， 肌 间 耦 合 强度 在 Beta 与 gamma 频段 最 为 显著 ， 协 同 肌肉 对 耦合 强度 
比 搓 抗 肌肉 对 耦合 强度 大 ; 疲劳 后 的 耦合 强度 相对 于 疫 劳 前 有 所 增强 。 


5.15 计算 神经 学 


计算 神经 学 是 利用 计算 理论 和 方法 来 研究 和 理解 神经 系统 的 功能 和 机 理 的 
学 科 ， 研 究 如 何 描 述 生 物 神经 元 对 信号 刺激 的 个 体 和 群体 响应 等 问题 。 神 经 可 
塑性 (neural plasticity) 是 指 神经 元 网 络 对 外 界 刺激 的 适应 性 结构 变化 , 构建 可 
塑性 理论 模型 是 计算 神经 学 关注 的 主要 问题 之 一 。Leugering 和 Pipa [69] 基于 
Copula 理论 提出 了 一 个 神经 元 群体 可 塑性 的 理论 框架 ， 构 建 了 一 种 自 适 应 网 络 
模型 ， 可 以 在 未 知 模型 输入 变化 的 情况 下 保持 模型 输出 的 不 变性 ，CE 在 该 框架 
中 用 于 度量 神经 元 群 的 统计 特性 , 衡量 输入 输出 之 间 的 信息 量 。 神经 元 之 间 的 信 
息 传 输 分 析 是 计算 神经 学 的 另 一 个 重要 问题 。 分 析 计 算 神 经 元 之 间 的 信息 传输 
关系 需要 涉及 多 个 神经 元 之 间 的 MI 的 分 解 。 部 分 信息 分 解 (Partial Information 
Decomposition) 就 是 将 MI 分 解 为 协同 (Synergy), TT (Redundancy) 和 独 
特 信 息 (Unique Information) 三 个 部 分 的 理论 。 基 于 CE 理论 和 方法 , Pakman 
等 (TO) 提出 了 一 种 估计 独特 信息 的 方法 ， 并 应 用 于 分 析 多 个 神经 元 模型 的 信息 
处 理 。 


5.16 心理 学 


大 脑 是 一 个 分 布 式 的 网 络 系统 。 它 不 仅 控制 身体 ， 改 变 内 部 生理 状态 ， 也 
影响 多 个 高 级 过 程 。 同 时 ， 内 脏 信息 也 时 刻 受 到 大 脑 的 监控 ， 也 就 意味 着 内 脏 
过 程 也 会 反映 到 皮层 活动 中 。 内 脏 事件 相关 的 大 脑 活动 研究 是 一 个 重要 的 话题 。 
植物 神经 系统 中 的 过 程 之 间 相互 关联 ， 而 信息 论 则 提供 了 研究 它们 之 间 关系 的 
工具 。Ravijts [ri] 研 究 了 四 种 情绪 刺激 特征 ( 效 价 、 唤 醒 、 支 配 和 喜欢 ) 下 心 
跳 诱 发 脑 电位 (HEP) 的 时 间 交 互 近似 估计 问题 。 他 采用 了 用 于 情绪 分 析 的 生 
理 信号 DEAP 数据 集 ， 利 用 基于 CE 的 GCMI 方法 估计 了 MI、 协 同和 抑 余 等 
统计 量 ， 用 于 度量 不 同情 绪 刺 激 下 HEP 上 的 时 间 交 互 。 实 验 发 现 了 支配 和 喜欢 
情绪 刺激 下 HEP 上 的 时 间 交 互 现象 ， 第 一 次 揭示 了 情绪 感知 调制 的 HEP 的 时 
序 特性 。 


5.17 系统 生物 学 


系统 生物 学 的 一 个 主要 任务 是 通过 生化 运动 学 模型 ， 研 究 调 控 、 信 号 传导 
和 代谢 过 程 之 间 的 交互 。 建 立 这 样 的 模型 需要 选择 合适 的 模型 输入 变量 ，MI 是 
变量 选择 的 工具 之 一 。 但 常用 的 kNN 的 MI 估计 常常 是 有 偏差 的 ， 需 要 进行 修 
IE. Charzyfiska 和 Gambin [72] 提出 了 偏差 校正 方法 , 并 发 现 当 利 用 MI 和 CE 
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之 间 的 关系 估计 MIHI, 校正 效果 显著 。 作 者 将 方法 应 月 


3 


7 


于 受到 广泛 研究 的 p53 


蛋白 和 Mdm2 连接 酶 之 间 的 负 反 馈 环 路 问题 模型 上 ， 结 果 显 示 此 方法 能 够 比 传 
统 的 本 地 敏感 性 分 析 方 法 得 出 更 准确 地 反映 系统 行为 的 模型 输入 输出 关系 的 分 


析 结 果 。 


系统 生物 学 对 分 子 生 物 学 数据 分 析 的 主要 目的 之 一 是 建立 复杂 和 4 


E 物 现象 的 


网 络 和 动态 机 制 ， 以 分 析 生 命 组 织 的 功能 和 行为 。MI 在 构建 基因 通路 网 络 的 过 


程 中 发 挥 基础 性 作用 。Farhangmehr 等 [r3] 首次 提出 在 网 络 构建 中 利 月 


H CE 来 


估计 MI。 他 们 将 方法 应 用 于 酵母 细胞 周期 数据 ， 将 分 析 得 到 的 动态 网 络 与 京都 


计算 效率 。 


5.18 生物 信息 学 


基因 组 学 百科 数据 库 进 行 了 对 照 。 实 验 结果 显示 ， 利 月 


生物 信息 学 (Bioinformatics) 是 通过 算法 分 析 


因数 据 (包括 


数据 ) 来 研究 生命 和 疾病 机 理 的 新 兴学 科 。 基 因 表 达 谱 是 利 有 


在 基因 分 子 层面 观察 某 一 生命 组 织 动 态 得 到 的 数据 ， 


H CE 来 估计 MI 提高 了 


因 表达 谱 


H DNA 微 阵列 技术 


从 而 能 够 在 基因 组 水 平 上 


反映 生命 系统 的 各 种 现象 和 机 理 。Wieczorek 和 Roth [r4] 提出 了 一 种 研究 时 间 
序列 数据 之 间 相 互 作用 的 分 析 方法 ， 称 为 因果 压缩 (Causal Compression), 5 


传统 的 分 析 全 时 间 序 列 之 间 的 因果 关系 不 同 ， 该 方法 研究 了 


rected Information) 分 解 的 时 间 序 列 间 相互 因果 作 上 月 


HARRA, H 


了 时 序 因果 分 割 和 因果 二 分 图 发 现 两 类 问题 的 解法 。 


于 定向 信息 (Di- 


F 据 此 给 出 


于 CE 与 MI 之 间 的 等 


OME, 作者 证 明了 该 方法 只 与 数据 分 布 的 Copula 密度 函数 有 关 ， 并 据 此 设计 了 
求解 方法 。 作 者 将 该 方法 应 用 于 NCBI 数据 库 中 的 人 类 C 型 肝炎 病毒 感染 数据 


(NCBI/GEO 查询 号 : GSE7123)， 研 究 了 接受 了 珍 乙 二 醇 干扰 素 和 利 巴 韦 林 治 


疗 的 重组 丙 型 肝炎 病毒 核心 蛋白 基因 型 1 感染 的 基因 表达 谱 时 序数 据 ， 关 注 了 


在 干扰 素 信 号 传导 中 具有 重要 交互 角色 的 两 个 基因 : 转录 子 STAT1 和 干扰 素 诱 
导 抗 病毒 基因 IFITS, 分别 生成 了 二 者 在 有 效 救治 和 无 效 救 治 病 人 内 相互 作 月 
的 不 同 。 研究 发 现 , 根据 分 析 结 果 , 干扰 素 疗 法 消除 了 大 多 数 有 效 救治 病人 体内 
两 种 基因 之 间 的 关联 ,而 无 效 救治 病人 体内 的 关联 则 不 受 影响 。 同时 , 分 析 表 明 
两 种 病人 救治 前 后 二 者 之 间 均 存在 因果 交互 作用 ， 但 对 于 有 效 救治 病人 ， 早 期 


的 IFIT3 对 后 期 的 STAT1 的 影响 更 显著 ， 这 与 已 有 


研究 结论 相符 合 


o 


H 


很 多 疾病 的 发 生 与 基因 结构 变异 有 关 。 找 贝 数 变异 (Copy Number Varia- 


tions: CNVs) 指 长 度 大 于 1kb 的 DNA 片段 的 变异 ， 


在 人 类 基因 组 中 大 量 存 


在 。 作 为 重要 的 基因 变异 ，CNVs 包含 了 7 大量 DNA 序列 、 疾 病 点 和 功能 单元 ， 
能 为 疾病 研究 提供 线索 。 研 究 表明 ， 多 种 癌症 的 形成 和 发 展 与 不 同 的 CNVs 有 
关 。 因 此 ， 发 现 不 同 基因 的 CNVs 与 不 同 净 症 之 间 的 关系 有 助 于 研究 癌症 病因 
和 诊断 方法 。 从 大 量 的 CNVs 的 基因 特征 中 选择 出 与 癌症 相关 的 特征 是 生物 信 


息 学 的 一 个 重要 问题 。Wu 和 Li [rl r6] 提出 了 一 种 基因 选择 方法 ， 称 为 相关 宛 
余 和 交互 分 析 (Correlation Redundancy and Interaction Analysis: CRIA) Jy 
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法 ， 根 据 CNVs 选择 与 癌症 有 关 的 基因 ， 以 用 于 癌症 分 类 。CRIA 方法 利用 了 
CE 的 多 变量 相关 性 特性 , 设计 了 基因 特征 交互 强度 度量 ， 用 于 筛选 与 癌症 类 型 
相关 性 强 的 基因 。 他 们 将 该 方法 应 用 于 cBioPortal 的 癌症 基因 组 数据 ， 利 用 了 
其 中 的 6 种 癌症 数据 ， 选 择 出 了 200 个 与 癌症 有 关 的 基因 。 为 了 验证 算法 的 有 
效 性 ， 他 们 基于 亚利桑那 州立 大 学 的 数据 将 方法 与 其 他 8 种 基因 选择 算法 进行 
了 对 比 ， 结 果 显示 CRIA 方法 选择 的 基因 能 够 更 准确 地 预测 癌症 类 型 。 


5.19 ”临床 诊断 学 


心脏 病 是 最 常见 的 临床 疾病 之 一 。 医 生 已 经 积累 了 丰富 的 心脏 病 临 床 诊断 
经 验 ， 可 以 通过 各 种 生理 测量 结果 作出 诊断 决策 。 在 此 经 验 基础 上 开发 智能 临 
床 诊断 模型 是 业界 长 期 追求 的 目标 ， 开 发 此 类 模型 的 关键 在 于 选择 一 组 生理 测 
量变 量 来 构建 预测 诊断 模型 。 基 于 著名 的 UCI 心脏 病 数 据 集 [62], 5t b 提 
出 采用 CE 作为 变量 选择 方法 , 用 以 选择 一 组 生理 变量 构建 诊断 模型 。 该 数据 集 
包含 了 来 自 世界 四 地 真实 的 临床 心脏 病 生 理 测量 和 诊断 数据 ， 其 中 13 个 生理 测 
量变 量 被 医学 专家 认定 为 是 临床 相关 的 。 实 验 结果 表明 ，CE 方法 选择 出 了 13 
个 临床 医生 认定 变量 中 的 11 个 变量 ， 是 对 比方 法 中 最 多 的 ， 从 而 得 到 了 最 好 的 
预测 准确 率 。 同 时 ，CE 方法 还 发 现 了 认定 变量 以 外 其 他 与 诊断 相关 的 变量 , 为 
临床 进一步 检验 提供 了 新 的 参考 。( 更 多 内 容 见 B. 引 

糖尿 病 是 另 一 种 常见 临床 疾病 。 对 糖尿 病人 的 病情 管理 与 临床 诊治 结果 (发 
病 率 和 致死 率 ) 密切 相关 ， 因 此 建立 严格 的 糖尿 病 患 者 住院 管理 流程 对 其 安全 
十 分 重要 ， 这 就 需要 对 病情 管理 标准 进行 分 析 研 究 。 为 了 评估 住院 患者 的 救治 
效果 ， 美 国 业 界 建立 了 健康 事实 (Health Facts) 数据 集 Dis], ST 130 所 
美国 医院 和 救治 网 络 的 糖尿 病 患者 的 数据 。 基 于 该 数据 集 1999 至 2008 年 的 10 
年 间 101,721 名 住院 患者 的 数据 ，Mesiar 和 Sheikhi [77] 利用 CE 变量 选择 方 
法 建立 预测 模型 ， 用 于 从 其 他 49 个 变量 预测 “是 否 已 用 药 ” 变量， 取得 了 良好 
的 预测 效果 , 在 仅 选 择 使 用 20 个 变量 的 情况 下 就 获得 了 97.2% 的 准确 率 ， 增 进 
了 对 用 药 相 关 变量 的 认识 ， 构 建 了 合理 用 药 评价 模型。 

癌症 预后 是 指 基于 癌症 病情 的 临床 表现 和 诊断 结果 ， 对 病情 的 未 来 发 展 进 
行 评估 ， 以 帮助 进一步 的 临床 决策 。 临 床 评估 考虑 的 预后 因子 在 评估 中 至 关 重 
要 ， 但 又 常常 数量 众多 ， 需 要 进行 分 析 选 择 。 比 如 ， 肺 癌 的 预后 因子 就 多 达 百 
种 。 预 后 模型 是 在 预后 因子 的 基础 上 建立 的 病人 风险 预测 模型 ， 是 癌症 治疗 中 
重要 的 临床 工具 。 马 健 [rs] 提出 了 一 种 基于 CE 的 生存 分 析 变 量 选择 方法 ， 并 
将 其 应 用 于 预后 因子 的 选择 问题 ， 以 建立 预测 病人 生存 时 间 的 预后 模型 。 他 基 
于 两 个 公开 的 肺癌 数据 验证 了 该 方法 ， 发 现 其 能 选择 符合 临床 标准 的 预后 因子 ， 
并 获得 较 同类 方法 更 好 的 预测 模型 ， 在 保证 模型 可 解释 性 的 同时 具有 更 好 的 预 
测 性 能 。 

乳腺 癌 是 女性 最 常见 的 恶性 肿瘤 之 一 ， 在 我 国 的 发 病 率 和 死亡 率 都 有 逐年 
上 升 的 趋势 , 严重 威胁 着 女性 的 身体 健康 和 家 庭 幸福 。 利 用 统计 方法 分 析 临 床 数 
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据 并 构建 诊断 模型 来 辅助 临床 诊断 决策 ， 可 以 提高 医生 工作 效率 并 降低 误诊 率 ， 


从 而 促进 患者 健康 改善 。 付 金 露 [79] 提出 采 月 


特征 选择 的 方法 构建 乳腺 瘤 患 者 


预后 模型 ,采用 了 Lasso, CE 和 RFREF 三 种 特征 选择 方法 , 分 析 了 SEER 数 


据 库 中 2010-2014 年 的 乳腺 癌 患 者 临床 诊断 数据 ， 利 月 
别 构建 了 逻辑 回归 、 随 机 森林 、XGBoost 和 Stacking 四 种 模型 ， 用 


三 种 方法 选择 的 特征 分 


以 预测 患者 


5 年 生存 状态 。 结 果 表明 , 利用 CE 选择 的 特征 构建 的 逻辑 回归 模型 给 出 了 最 高 


的 预测 准确 率 (96.8476) 。 


白内障 是 眼科 的 常见 疾病 , 是 导致 患者 失明 的 最 主要 病因 。 白内障 超声 乳化 
手术 (Phacoemulsification) 是 世界 各 国治 疗 白内障 的 首选 手术 治疗 方式 。 尽 管 
该 手术 已 十 分 成 熟 ， 但 临床 仍然 可 能 会 导致 术 后 角膜 水 肿 等 并 发 症 


视力 恢复 并 造成 患者 不 适 。 构 建 基于 风险 因素 的 角膜 水 有 
十 分 必要 。Luo 等 [80] 提出 利用 CE 方法 构建 术 后 角膜 水 


， 从 而 影响 


:风险 预测 模型 在 临床 
风险 预测 模型 ， 将 


方法 应 用 于 临床 178 名 患者 的 数据 ， 从 数据 的 17 个 变量 中 筛选 预测 变量 ， 最 终 


将 临床 预测 模型 使 用 的 四 种 变量 (糖尿 病 、 最 佳 矫 正视 力 、 唱 状 体 厚度 和 累积 


散 能 量 ) 减少 为 两 种 〈 最 佳 矫正 视力 和 累积 耗 散 能 量 
果 分 析 表 明 ， 利 用 CE 得 到 的 预测 模型 具有 临床 应 用 价值 ， 可 以 在 保证 预测 性 


能 的 情况 下 减少 预测 需要 收集 的 临床 信息 。 


— 


， 且 不 影响 预 


测 精度 。 结 


EDGR (Aortic Regurgitation) 是 一 种 常见 的 心脏 为 膜 疾 病 ,主要 证 
状 是 在 心脏 舒张 期 ， 血液 从 主动 脉 回流 到 左 心室 。 主动 脉 锥 膜 置换 手术 是 主动 脉 
办 反 流 的 传统 治疗 方式 之 一 。 左 心室 射 血 分 数 (Left Ventricle Ejection Fraction: 


LVEF) 是 一 项 衡量 心脏 功能 的 重要 指标 ,研究 其 在 手术 前 后 的 改善 关系 可 以 


为 瓣膜 置换 手术 时 机 选择 和 效果 预测 提供 参考 证 据 。Sunoj 和 Nair [B1] 利用 


survival copula 扩展 了 CE 概念 ， 提 出 了 一 种 称 为 Survival Copula Entropy 
(SCE) 的 新 概念 ， 用 于 衡量 生存 函数 相关 变量 之 间 的 依赖 关系 。 他 们 将 SCE 应 


脑 肿瘤 是 一 种 高 致死 率 肿 疤 , 约 占 全 身上 


瘤 的 5%， 近 年 来 在 我 


式 医学 影像 的 分 类 识别 是 主要 的 临床 诊断 方式 。 利 用 深度 学 习 方法 
学 影像 提取 定量 特征 并 构建 诊断 模型 ， 可 以 辅助 医师 的 临床 诊断 ， 因 此 得 到 了 
大 量 的 研究 。 如 何 提取 和 选择 图 像 的 定量 特征 是 构建 辅助 诊断 模型 的 关键 问题 。 
潘 红 宇 [B2] 提出 了 一 种 此 类 特征 选择 方法 ， 首 先 利 用 CE 等 相关 性 度量 初始 化 


特征 集合 ， 再 利用 灰 狼 优化 算法 以 分 类 性 能 为 目标 优化 特征 集合 。 
重庆 医科 大 学 附属 第 一 医院 、 西 南 医院 和 四 川 省 肿瘤 医院 的 102 fil 
五 类 共 5530 个 影像 组 学 特征 ， 结 
了 最 少 (13 个 ) 的 特征 的 情况 


突变 的 低级 别 脑 胶 质 瘤 患者 影像 数据 ， 提 取 了 


表明 ， 相 较 对 比方 法 ， 提 出 的 方法 在 选择 使 月 


用 于 主动 脉 锥 置换 手术 临床 数据 ， 发 现 了 手术 前 后 LVEF 之 间 的 正 相 关 关 系 。 


国 发 病 率 呈 


上 升 趋势 。 脑 肿瘤 病变 具有 形态 多 样 、 位 置 不 定 的 特点 ， 诊 断 难度 大 ， 基 于 无 侵 


， 从 肿瘤 医 


也 利用 来 自 


4 有 ATRX 


下 得 到 了 最 优 的 分 类 性 能 ， 且 所 选 特征 与 ATRX 突变 特征 状态 相关 ， 具 有 作为 


生物 标志 物 的 潜力 。 


脉搏 波 是 传统 中 医 的 主要 问 诊 方式 ， 因 其 携带 了 复杂 多 样 的 病理 信息 ， 在 


5 实际 应 用 40 


一 定 程度 上 反映 了 心血 管 系统 的 生理 状态 。 传 统 中 医 的 诊 脉 主要 依靠 名 医 的 个 
人 经 验 ， 研 究 脉 搏 波 数据 的 分 析 算 法 ， 对 糖尿 病 和 高 血压 等 常见 疾病 的 无 创 诊 
断 具 有 重要 意义 ， 有 助 于 传统 中 医 的 科学 化 发 展 。 汤 宇 飞 B3] 提出 了 一 种 基于 
图 卷 积 神经 网 络 的 多 模 态 脉搏 波 诊 断 算法 ， 通 过 将 脉搏 波 转换 为 包含 互补 的 病 
理 信 息 的 三 通道 图 像 ， 再 利用 ResNet 提取 图 像 特 征 ， 最 后 利用 CE 等 相关 度量 
得 到 反映 脉搏 波 信和 号 间 时 间 相 关 性 的 邻接 矩阵 构建 图 卷 积 神经 网 络 ， 从 而 进行 
疾病 分 类 诊断 。 他 在 实际 腕 部 和 指 尖 的 脉搏 波 数据 的 基础 上 ， 对 高 血压 和 糖尿 
病 患者 的 健康 状态 进行 分 类 ， 结 果 表 明 算 法 可 以 得 到 9976 以 上 的 预测 准确 率 。 


5.20 老年 医学 


阿尔 兹 海 默 病 (Alzheimer’s disease, 也 称 痴呆 症 ) 是 老年 人 面 对 的 主要 神经 
退行 性 疾病 之 一 , 临床 表现 为 认 知 能 力 的 过 度 衰退 等 。 早期 第 查 和 诊断 可 以 帮助 
痴呆 症 患 者 和 家 庭 及 早 干预 并 管理 病情 发 展 , 可 以 有 效 提高 病人 生活 质量 , 降低 
家 庭 和 社会 成 本 和 负担。 简易 精神 状态 量 表 (Mini-Mental State Examination: 
MMSE) 是 临床 广泛 采用 的 认 知 能 力 筛 查 工具 之 一 。 马 健 [B4] 通过 利用 CE 分 
析 了 手指 扣 击 运动 (finger tapping) 的 特征 和 MMSE 之 间 的 关联 强度 ， 发 现 一 
组 与 MMSE 相关 联 的 特征 ， 包 括 扣 击 频率 (或 扣 击 次 数 或 扣 击 平均 时 间 间 隔 ) 
等 。 在 此 关联 关系 的 基础 上 , 他 们 构建 了 从 手指 扣 击 特征 到 MMSE 的 预测 模型 ， 
取得 了 良好 的 预测 效果 。 此 预测 模型 有 望 用 于 痴呆 证 等 疾病 的 认 知 能 力 筛 查 工 
作 中 。 
帕 金 森 病 (Parkinson's disease: PD) 是 另 一 种 常见 的 神经 退行 性 疾病 , 临床 
表现 为 动作 迟缓 和 运动 功能 障碍 等 症状 。 重 复 经 颅 磁 刺 激 (repititive transcranial 
magnetic stimulation: rTMS) 是 利用 脉冲 磁场 作用 于 中 枢 神经 系统 ， 以 改善 生 
理 功能 的 临床 治疗 技术 ， 广 泛 应 用 于 神经 、 精 神 类 疾病 的 治疗 ， 并 在 近年 应 用 
于 PD 康复 治疗 的 研究 中 ， 以 期 缓解 患者 症状 并 改善 运动 功能 。 李 润泽 等 
研究 了 rTMS 对 PD 患者 运动 症状 辅助 治疗 的 神经 调控 机 制 ， 利 用 基于 CE 的 
GCMI 等 方法 分 析 了 rTMS 治疗 前 后 的 EEG 数据 ， 构 建 了 脑 功能 网 络 连接 矩 
阵 并 得 到 3 种 网 络 特征 参数 。 实 验 结果 表明 rTMS 主要 改变 PD 患者 的 beta 
和 gamma 振荡 ， 其 中 运动 皮层 的 相应 变化 可 能 与 运动 功能 改善 有 关 。 

跌倒 是 老年 人 面 对 的 重大 健康 风险 之 一 , 需要 科学 管理 和 及 早 干预 , 跌倒 巴 
测 是 管理 跌倒 风险 的 重要 手段 之 一 。 起 立行 走 试验 (Timed Up and Go: TUG) 
是 一 种 主要 的 跌倒 风险 评估 工具 。 马 健 Bo 提出 了 一 种 结合 视频 分 析 和 机 器 学 
习 技术 的 跌倒 风险 预测 方法 。 该 方法 首先 从 老年 人 进行 TUG 测试 的 视频 中 分 
析出 人 体 3D 姿态 信息 , 再 由 一 段 时 间 的 姿态 信息 序列 计算 出 一 组 步 态 特征 , 通 
过 利用 CE 分 析 步 态 特征 和 跌倒 风险 指数 之 间 的 关联 关系 ， 选 择 出 一 组 与 风险 
关联 的 步 态 特征 (包括 步 幅 、 步 态 速度 和 步 态 速度 的 方差 等 ) ， 最 后 用 此 特征 作 
为 输入 构建 跌倒 风险 的 预测 模型 。 该 方法 在 真实 数据 上 的 实验 显示 了 良好 的 预 
测 效 果 。 此 分 析 结 果 也 表明 了 步 态 特征 反映 的 行动 能 力 与 跌倒 风险 之 间 的 内 在 
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联系 ， 使 得 模型 具有 临床 意义 的 可 解释 性 。 

在 以 上 两 个 研究 的 基础 上 ， 马 健 [BT] 还 利用 CE 对 手指 扣 击 运动 特征 数据 
和 步 态 特征 数据 进行 了 联合 分 析 ， 发 现 了 某 些 手指 运动 特征 与 跌倒 风险 之 间 具 
有 一 定 的 关联 性 。 这 一 发 现 为 首次 发 现 ， 揭 示 了 衰老 过 程 中 认 知 能 力 和 行动 能 
力 之 间 的 关联 ， 提 供 了 科学 实验 证 据 ， 加 深 了 对 衰老 的 生理 特征 的 认识 和 理解 。 


5.21 精神 病 学 


抑郁 症 是 一 种 常见 的 情绪 相关 的 心理 精神 障碍 ， 全 世界 约 有 3.5 亿 名 患者 
为 此 病 所 困扰 ， 对 其 进行 研究 对 人 类 健康 具有 重要 意义 。 脑 电 图 (EEG) 是 一 种 
非 侵入 式 的 大 脑 活动 电信 号 测量 手段 , 广泛 应 用 于 大 脑 疾病 的 研究 中 。 脑 功 能 区 
络 是 在 EEG 信号 基础 上 构建 的 反映 大 脑 活动 的 功能 性 指标 ， 可 采用 MI, HIF 
性 等 多 种 方法 构建 此 类 网 络 。 张 婷 婷 等 [BSL BO) 提出 基于 相干 性 虚 部 (Imaginary 
part of Coherency) 构建 的 脑 网 络 连通 性 指标 来 研究 抑郁 症 患 者 识别 问题 。 他 们 
利用 CE. Relief 过 滤 等 特征 选择 方法 对 脑 电 网 络 连 通 特征 进行 选取 ， 发 现 利用 
CE 和 Relief 过 滤 联 合 得 到 的 相干 性 在 线 反馈 指标 特征 集合 能 够 有 效 区 分 抑 邦 
证 患者 和 健康 人 和 群 。 


5.22 公共 卫生 学 


流行 病 是 公共 卫生 学 的 重要 话题 ， 流 行 病 患者 的 及 时 诊断 对 控制 流行 病 的 
传播 至 关 重 要 。 感染 了 流行 病毒 的 病人 往往 伴 有 发 热 等 症状 , 很 难 与 正常 的 发 热 
病人 进行 区 分 。 目 前 正在 流行 的 新 型 冠状 病毒 患者 就 具有 这 样 的 发 热 症状 ， 
于 临床 数据 开发 能 够 区 分 病毒 感染 者 和 正常 流感 病人 的 技术 成 为 一 个 紧迫 的 问 
题 。 然 而 ,相关 的 症状 有 10 几 种 ， 如 何 选择 合适 的 变量 集合 成 为 研究 成 功 的 关 
fb. Mesiar 和 Sheikhi [77] 基于 CE 变量 选择 方法 ， 利 用 真实 的 临床 数据 ,分 析 
了 新 冠 患者 诊断 相关 的 19 种 症状 变量 ， 发 现年 龄 、 疲劳 和 恶心 呕吐 是 最 重要 的 
诊断 变量 ， 可 以 使 诊断 达到 8596 的 诊断 准确 率 ， 如 果 将 诊断 变量 增加 到 15 个 ， 
准确 率 可 以 提高 到 91.490. 
高 血压 是 全 球 首要 致死 病因 ， 对 人 群 健康 构成 严重 威胁 。 全 基因 组 关联 研 
究 表明 多 个 基因 与 高 血压 密切 相关 。 已 有 多 个 研究 报道 工 型 细胞 膜 钙 离 子 转运 
酶 基因 (ATP2B1) 与 收缩 压 和 舒张 压 相关 联 。 该 基因 有 21 个 CpG 位 点 。 研 
究 该 基因 及 其 CpG 位 点 与 高 血压 的 关系 是 一 个 新 的 重要 问题 。Purkayastha 和 
Song [55] 提出 了 一 种 新 的 非 对 称 可 预测 性 概念 ， 称 为 非 对 称 MI (AMI), FA 
用 CE 理论 给 出 了 其 估计 方法 。 他 们 将 该 方法 应 用 于 ELEMENT 数据 集 , 分 析 
525 个 年 龄 在 10-18 岁 之 间 的 儿童 的 数据 ， 发 现 ATP2B1 与 舒张 压 相 关联 ， 证 
实 了 已 有 的 发 现 ; 同时 发 现 该 基因 的 CpG 位 点 CG17564205 与 舒张 压 相关 联 ， 
且 根 据 AMI 判断 ， 每 张 压 对 该 位 点 具有 预测 性 ， 这 一 -新 发 现 表明 血压 可 以 改变 
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5.23 ”经 济 学 


经 济 政策 的 评估 需要 定量 分 析 ， 定 量 分 析 方法 可 以 科学 、 客 观 地 鹿 
AUR. Shan 和 Liu (90,01) 提出 了 一 种 可 
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此 的 实验 设计 。 
经 济 学 实验 的 新 路 径 。 


模型 相 结合 是 设计 经 


系 提出 了 一 种 条 件 独立 性 测试 算法 ， 并 将 其 应 用 于 因果 结构 
经 济 学 中 的 议价 理论 ， 研 究 讨 价 
在 这 个 过 程 中 的 作用 。 作 者 将 算法 应 用 于 eBay 的 Best 
存在 关联 ， 印 证 了 互惠 理论 ; 同时 ， 


作者 利用 
系 的 作用 
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新 PC 算法 研究 了 
， 以 及 响应 时 间 
发 现 交 易 双 方 让 价 行为 之 间 


Bossemeyer 


分 析 政策 组 合 
BE 相关 关系 并 构建 决策 树 ， 方 法 的 思想 是 利 
以 区 别 不 同 政策 对 象 群体 的 政策 决策 树 ， 由 树 的 叶 
子 节点 来 表示 不 同 政策 组 合 对 应 的 群体 划分 。 他 们 将 该 方法 应 用 于 发 展 经 
国 的 减 贫 政策 效果 ， 研究 分 析 了 2018 年 由 政府 开展 的 贫困 家 庭 状 
四 川 省 的 数据 。 分 析 发 现 , 就 业 政策 、 
响 家 庭 收 入 的 主要 政策 因素 ， 并 
构 的 不 同 特征 。 该 方法 在 无 历史 数据 的 情况 下 ， 
生 ， 并 发 现 了 更 加 有 效 的 政策 组 合 方案 。Zhang 等 P 
几 查 数据 中 河南 省 的 数据 ， 得 出 了 基本 相同 的 结论 。 
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弱 ; 上 中 之 间 相 关 怕 
投资 者 情绪 对 财经 
研究 的 重要 问题 之 一 。 


影响 。Han 和 Zhou [95] 


法 ， 人 研究 公司 间 投 资 者 情绪 传播 的 模式 ， 其 中 采 月 
法 。 他 们 采用 2015-2021 年 间 的 中 国 137 家 新 外 
引 数 据 来 代表 投资 者 情绪 ， 将 其 月 


运用 pair-copula WEE 
发 现 该 产业 链 上 游 相 关 性 较 强 ， 下 游 术 
FE 强 等 现象 。 


由 于 社交 媒体 和 站 
国家 间 传 播 ， 进而 形成 传播 网 络 , 使 得 局 部 情绪 波动 得 
于 小 波 分 析 、 传 递 炉 和 网 络 分 析 组 合 的 方 
了 基于 CE 的 传 ; 


目 关 性 研究 ， 基 于 该 领域 内 9 


HX PERS ; 


市 场 有 着 广泛 而 多 面 的 影响 ， 


个 


提出 了 


经 济 关 系 形成 的 链条 式 关 联 关系 形态 
Du o 4 来 进行 价值 互 
品 和 服务 , 同时 接受 下 游 企业 的 反馈 信息 ,从 而 
分 析 ， 对 产业 布局 管理 和 投资 
基于 CE 概念 ， 
日 关 关系 。 她 将 该 概念 应 用 于 
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发 现 的 PC 算法 中 。 
还 价 行为 中 互惠 关 
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和 场 关系 整合 ， 投 资 者 情绪 会 在 人 群 和 


以 迅速 扩散 , 造成 系统 性 


AT 


6 源 汽车 上 市 公司 的 百度 搜索 索 
小 波 分 析 分 解 为 多 尺度 信息 ， 再 用 传递 炉 构 


建 情绪 传播 网 络 ， 最 后 用 网 络 分 析 的 方法 分 析 短期 和 长 期 传播 特征 。 他 们 发 现 ， 


5 实际 应 用 43 


投资 者 情绪 表现 为 短期 局 部 活跃 ， 并 具有 连 


oa 


且 逐 渐 增 长 的 进化 模式 。 


5.24 管理 学 


准确 预测 农产品 期 货 价 格 有 助 于 为 政府 相关 部 门 的 科学 决策 提供 参考 ， 因 
而 对 保障 国家 粮食 安全 具有 重要 意义 。 然 而 价格 预测 受 多 种 复杂 因素 的 影响 , 如 
国际 形势 、 市 场 情绪 博弈 等 。 因 此 ， 识 别 价格 的 影响 因素 对 构建 准确 的 价格 预测 
模型 至 关 重 要 。An 等 po 提出 了 一 个 基于 历史 数据 和 文本 数据 的 融合 多 种 方法 
的 混合 预测 框架 ， 其 中 经 验 模 态 分 解 (Empirical Mode Decomposition: EMD) 
用 于 预 处 理 历史 数据 , 动态 主题 模型 (Dynamic Topic Model: DTM) 和 情感 分 
析 用 于 提取 微 博文 本 信息 ， 再 利用 CE 等 方法 对 提取 的 因子 进行 筛选 ， 用 于 构 
建 预 测 模型 。 作 者 在 两 个 实际 数据 上 验证 了 该 方法 框架 : 国家 统计 局 的 猪肉 价 
格 数据 和 大 连 商 品 交易 所 的 大 豆 期 货 价格 数据 ， 并 收集 了 相应 时 间 内 的 微 博文 
本 数据 。 在 实验 中 ， 作 者 将 CE 方法 与 同类 的 dCor 和 HSIC 方法 进行 了 对 比 ， 
结果 表明 ， 在 两 个 数据 上 ， 基 于 CE 的 预测 模型 都 给 出 了 最 好 的 预测 性 能 。 

库存 管理 是 企业 运营 管理 过 程 中 的 关键 环节 ， 也 是 管理 学 的 重要 问题 之 一 。 
报 童 问题 是 典型 的 单 周 期 库存 管理 模型 ,一 直 是 本 领域 研究 的 焦点 。 近 年来， 利 
用 数据 驱动 模型 和 方法 的 报 童 问题 研究 展现 出 比 传统 方法 的 优越 性 ， 进 而 成 为 
了 热门 话题 。Tian 和 Zhang DÅ 提出 了 一 种 端 到 端的 算法 框架 ， 利 用 深度 学 习 
模型 从 在 线 商品 评论 等 特征 数据 中 预测 订单 数量 ， 其 中 采用 了 包括 CE 在 内 的 
方法 来 选择 模型 的 输入 特征 。 他 们 将 方法 应 用 于 汽车 库存 管理 问题 ， 基 于 2016 
至 2022 年 间 的 大 众 朗逸 汽车 的 历史 销售 量 、 革 网 站 的 评论 、 某 搜索 引擎 指数 、 
和 宏观 经 济 指数 等 数据 构建 了 模型 。 结 果 显 示 ， 本 方法 能 够 大 幅 减少 超额 成 本 
和 短缺 成 本 之 和 ， 与 同类 方法 相 比 减少 了 31.8% 的 成 本 。 

中 国企 业 海外 并 购 面临 着 时 代 的 机 遇 和 挑战 。 探 究 影 响 中 国企 业 海外 并 购 
的 国内 外 各 种 因素 ， 分 析 并 购 的 短期 和 中 长 期 绩效 ， 具 有 重大 的 理论 和 现实 意 
义 。 王 琳 君 [DS] 提出 利用 Copula VECM 模型 ， 分 析 与 海外 并 购 数量 强 关联 的 
经 济 变量 对 并 购 的 影响 ， 特 别 考虑 了 被 其 他 研究 者 忽视 的 宏观 经 济 变量 的 动态 
影响 。 由 于 此 类 经 济 变量 较 多 ， 容 易 使 构建 的 VAR 模型 复杂 度 增加 ， 导 致 估计 
模型 的 不 准确 性 。 因此 ,他 提出 利用 CE 对 经 济 变量 进行 选择 后 再 建立 模型 。 他 
在 Wind 数据 库 中 选取 了 海外 并 购 数量 和 其 他 7 个 与 并 购 数量 可 能 关联 的 宏观 
经 济 变量 的 季度 数据 ， 通 过 CE 关联 度 分 析 后 ， 得 出 结论 认为 宏观 经 济 杠杆 率 、 
GDP、 货 币 供给 增长 率 和 汇率 四 个 宏观 经 济 因素 是 影响 我 国 海外 企业 并 购 活动 
不 可 忽视 的 重要 因素 。 他 进一步 分 析 论 述 了 所 选 变量 对 并 购 数量 影响 的 内 在 经 
济 逻 辑 ， 增 强 了 模型 的 合理 性 。 
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5.25 ”社会 学 


性 别 不 平等 是 社会 学 研究 的 问题 之 一 。 由 怕 
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E 别 视角 , 我 们 可 以 发 现 很 多 不 平 


等 现象 , 如 两 性 在 收入 上 、 教 育 上 、 职 业 上 的 不 平等 等 。 分 析 和 鉴别 导致 不 平等 


现象 的 社会 学 因素 是 学 者 们 关心 的 问题 ， 利 月 


有 定量 方法 分 析 相关 社会 学 数据 是 


研究 的 手段 之 一 。 然 而 各 种 社会 因素 之 间 的 因果 链条 十 分 复杂 ， 需 要 采用 科学 
的 数据 分 析 工 具 加 以 应 对 。 马 健 [ul] 提出 了 一 种 多 域 因果 关系 鉴别 方法 ， 将 性 
将 不 平等 问题 转化 为 数据 分 析 中 的 域 迁 移 问 题 ， 利 


别 因 素 作为 社会 外 在 变量 ， 


美 


H 


用 基于 CE 的 条 件 独 立 性 测试 发 现 社会 变量 


之 间 的 因果 关系 。 他 将 方法 应 用 于 


国家 成 人 收入 社会 调查 数据 ， 分 析 了 性 别 、 教 育 和 收入 之 间 的 因果 关系 链 


条 ， 发 现 了 性 别 导致 教育 不 平等 ， 进 而 造成 收入 不 平等 的 科学 证 据 。 


5.26 教育 学 


高 中 教育 各 学 科 之 间 具 


性 是 一 个 重要 的 基本 问题 ， 


角度 分 析 论 证 了 MI 度量 的 优越 性 ， 六 
示 数 学 对 其 他 不 同学 科 (语文 、 英 语 、 


5.27 计算 语言 学 


有 内 在 的 联系 ， 教 学 大 纲 中 强调 了 数学 对 物理 、 化 
学 和 生物 等 学 科 的 基础 性 地 位 ， 数 学 知识 、 数 学 思维 和 思想 方法 深刻 地 渗透 影 
向 着 其 他 学 科 的 教学 。 因 此 ,数学 成 绩 被 认为 与 其 他 学 科 成 绩 具 有 相关 性 。 利 用 
实证 的 方法 研究 数学 与 其 他 学 科 的 关系 ， 分 析 数学 成 绩 与 其 他 成 绩 之 间 的 相关 
对 于 教学 改革 和 学 习 方 式 的 选择 具有 普遍 参考 意义 。 
柳 琼 bg 基于 某 市 2013 级 理科 学 生 高 一 、 高 二 期 末 考 试 成 绩 和 高 三 两 次 模拟 
考试 成 绩 ， 研 究 了 数学 成 绩 与 其 他 学 科 成 绩 之 间 的 相关 性 。 作 者 比较 了 经 典 线 
性 相关 系数 、 秩 相关 系数 和 MI 三 种 相关 必 


度量 方法 , 从 CE 和 MI 理论 关系 的 
实验 证 明了 MI 度量 能 够 更 好 地 刻画 揭 
物理 、 化 学 和 生物 等 ) 的 影响 力 机 制 。 


城市 服务 热线 是 政府 公共 管理 系统 的 重要 组 成 部 分 ， 促 进 了 政府 和 市 民 的 
沟通 ， 改 善 了 政府 的 公共 服务 。 但 传统 的 人 工 派 单方 式 无 法 满足 日 益 增长 的 热 


线 诉求 ， 如 何 高 效 快 速 的 处 理 大 量 的 


条 民 热 线 诉 求 是 城市 服务 热线 提高 服务 质 
量 面临 的 重要 课题 。 大 量 的 热线 文本 数据 积累 为 快速 第 选 和 处 理 热线 诉求 提供 


了 可 能 ， 可 以 利用 自然 语言 处 理 方法 处 理 热线 文本 数据 ， 进 而 构建 智能 派 单 系 


统 。 陈 作 海 等 0 提出 了 一 种 基于 知识 图 谱 技术 的 城 
市 热线 数据 构建 热线 知识 图 
进行 派 单 ， 大 大 改善 了 热线 服务 的 工作 效率 。 在 此 智能 派 单 系统 中 ，CE 作为 特 
征 选择 方法 被 用 来 对 城市 热线 数据 进行 预 处 理 ， 以 构建 和 更 新 知识 图 谱 。 结 

表明 ，CE 表现 优 于 其 他 同类 方法 。 作 者 将 该 方法 应 用 在 济南 市 民 服务 热线 的 系 


热线 派 单方 法 ,基于 城 


谱 ， 再 对 待 派 单 诉求 根据 构建 的 知识 图 谱 检 索 结果 


统 上 ， 通 过 不 断 更 新 知识 图 谱 ， 最 终 获得 了 90% 以 上 的 派 单 准确 率 。 
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5.28 新 闻 传 播 学 


7; 


z 


th 


aN 


卫生 事件 发 生 过 程 如 何 影 响 公众 情绪 是 一 个 重要 的 问题 ， 


现 
公 
Yb 


给 研究 这 类 问题 提供 了 条 件 。 Zhang 等 [101] 研究 了 上 海 新 冠 疫 
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— 


具有 理论 和 


人 

实意 义 ， 对 政府 的 信息 发 布 和 与 情 管控 具有 参考 价值 。 特 别 是 新 媒体 环境 中 ，， 
众 情绪 的 传播 和 演化 过 程 受 多 种 因素 影响 ， 因 而 更 趋 复 杂 。 新 
D 


E 
H 


冠 疫 情 的 发 生 
REWE, BE 


情 过 程 对 公众 情绪 的 影响 特点 和 机 理 。 他 们 以 微 博 平台 上 “上 海 疫情 ”主题 的 数 
据 为 基础 ， 研 究 了 公众 情绪 的 影响 因素 、 时 间 演 化 以 及 疫情 与 公众 情绪 之 间 的 


因果 关系 。 人 研究 利用 了 


果 关 系 ， 实 证 地 发 现 了 疫情 过 程 对 公众 负面 情绪 的 因果 效应 大 于 正面 情绪 ， 且 


正面 情绪 对 负面 情绪 具有 抑制 效应 。 


5.29 法 学 


区 属性 与 社区 犯罪 之 间 


社区 是 基本 的 社会 生活 单元 ， 社 区 治安 管理 与 每 个 人 的 4 


于 CE 的 传递 精 方 法 分 析 了 疫情 和 公众 情绪 之 间 的 因 


E 活 息息相关 。 社 
具有 内 在 联系 ， 分 析 社 区 经 济 、 社 会 和 人 口 等 属性 与 各 


类 犯罪 之 间 的 关系 ， 可 以 加 深 对 犯罪 行为 发 生 的 理解 ， 对 执法 部 门 合理 安排 部 
署 资 源 力量 具有 重要 参考 意义 。Wieser [102] 基于 CE 与 MI 的 等 价 关系 ， 提 出 


了 一 种 新 的 


犯罪 行为 ， 人 均 犯 罪 率 和 人 均 ( 非 ) 暴力 犯 


5.30 ”政治 学 


SEBS. 


4 G2 (Information Bottleneck) 估计 方法 。 由 于 利用 了 CE 的 
变换 不 变性 ， 该 方法 较 传 统 同 类 方法 具有 更 好 的 估计 怕 
美国 社区 与 犯罪 数据 集 , 分 析 125 种 经 济 社会 因素 与 18 种 犯 引 


能 。 他 将 该 方法 应 用 于 
星 属 性 (包括 8 种 
ER) 之 间 的 关系 ,学 习 得 到 了 可 以 
表示 这 种 关系 的 潜 变 量 模型 ， 为 构建 犯罪 预测 模型 提供 


政治 安全 事 关 国家 安危 。 政 治学 研究 关心 政权 领导 力 因素 与 政权 危机 之 间 
的 关系 ， 并 根据 这 些 信 息 配置 资源 ,开展 情报 收集 、 稳 定 或 颠覆 政权 等 行动 。 基 


于 雪 城 大 学 莫 伊 尼 汉 全 球 事务 研究 所 的 国际 政治 领导 力 数据 集 ，Card [109] 研 
RT 37 个 领导 力 因 素 与 政治 安全 之 间 的 非 线 怕 


性 分 析 工 具 , 重点 关注 了 两 个 领导 力 变量 


系 ， 发 现 了 未 知 的 关系 和 现象 。 


5.31 军事 学 


目标 意图 及 时 准确 识别 是 战场 态势 感知 的 一 项 重要 内 容 ， 是 指挥 决策 的 基 


础 和 前 提 。 空 中 飞行 目标 意图 识别 会 面临 多 种 不 确定 怕 


ERA, RAY CE (MI) 作为 非 线 
(政权 建立 原因 和 政权 结束 原因 ) 与 其 
他 因素 的 关系 。 分 析 结 果 佐 证 了 社会 学 家 的 已 有 理论 ， 分 析 也 印证 了 已 知 的 关 


的 挑战 ， 如 行为 特性 与 


物理 特性 的 不 确定 性 、 飞 行规 则 的 不 确定 性 和 行动 能 力 的 不 确定 性 等 ， 使 得 及 


时 准确 的 意图 识别 十 分 困难 。 张 可 等 内 0 生 提 出 了 一 种 基于 动态 贝 叶 


斯 网 络 的 目 


5 实际 应 用 46 


标 意图 识别 方法 ， 用 于 从 复杂 态势 中 目标 的 时 序数 据 中 完成 意图 识别 ， 方 法 利 
用 基于 CE 的 MI 佑 计算 法 从 目标 属性 和 目标 意图 数据 来 生成 贝 叶 斯 网 络 结构 ， 
再 利用 自 适应 遗传 算法 迭代 优化 网 络 结构 ， 利 用 最 终 优 化 得 到 的 网 络 来 进行 未 
知 目标 的 意图 识别 。 他 们 将 该 方法 应 用 于 空中 目标 的 处 理 过 程 ， 利 用 空中 目标 
的 位 置信 息 、 飞 行 信息 ， 以 及 雷达 和 通讯 系统 信息 来 识别 其 6 种 不 同意 图 (这 
逻 、 预 警 /指挥 、 电 子 侦察 、 电 子 干扰 、 攻 击 和 打击 等 )。 该 方法 可 不 限于 空中 飞 
行 目 标 ， 可 以 很 方便 地 推广 到 其 他 类 型 目标 上 。 


5.832 ”情报 学 


苏 覆 性 技术 是 具有 原始 创新 性 的 技术 ， 会 对 现 有 主流 技术 和 产业 产生 变革 
性 作用 ， 推 动 经 济 社会 发 生 突变 式 进步 。 开 展 颠 履 式 技术 的 前 瞻 识 别 及 预 判 研 
究 是 科技 情报 分 析 领 域 的 重要 问题 ， 对 科技 政策 制订 、 科 技 产业 布局 和 科技 创 
新 生态 培育 具有 指导 意义 。 基 于 知识 网 络 分 析 的 科学 、 技 术 和 产业 互动 模式 研 
究 是 解决 识别 研判 问题 的 路 径 之 一 。 许 海 云 等 提出 了 一 个 颠覆 性 技术 研究 
流程 框架 ,以 渐进 式 技术 为 参照 获取 科技 、 专 利和 产业 文献 资料 的 文本 数据 , 利 
用 自然 语言 处 理 技术 分 别 构建 三 者 的 知识 网 络 ， 再 利用 知识 网 络 的 三 种 整体 网 
络 属性 和 网 络 社区 相似 度 属 性 将 知识 网 络 互 动 模式 划分 为 预 设 的 五 种 模式 ， 包 
括 科 学 -技术 -产业 联动 模式 。 其 中 ，CE 被 用 来 度量 三 种 知识 网 络 的 整体 网 络 属 
性 之 间 的 关联 度 ， 以 表征 互动 模式 。 他 们 以 再 生 医学 (干细胞) 领域 作为 颠覆 
性 技术 对 象 ， 以 白血病 治疗 领域 为 渐进 性 技术 参照 开展 实证 研究 ， 获 取 了 截至 
2020 年 底 的 权威 数据 库 相 关 文 本 数据 ， 利 用 该 流程 框架 研究 了 两 个 对 比 领域 科 
学 -技术 -产业 互动 模式 的 共性 和 差异 ,加深 了 对 站 覆 性 技术 创新 生态 要 素 的 知识 
流动 和 扩散 规律 的 认识 。 


5.33 ”能 源 工程 


天 气 是 能 源 系 统 的 重要 影响 因素 ， 直 接 影响 能 源 的 生产 和 消费 两 端 。 特 别 
是 当 可 再 生 能 源 整 合 到 能 源 系统 中 后 ， 风 速 和 光照 等 天 气 因素 决定 了 风能 和 光 
伏 能 源 的 生产 能 力 ， 而 温度 变化 则 会 影响 居民 的 能 源 消耗 需求 。 但 自然 系统 具 
有 较 大 的 随机 性 ， 给 新 能 源 系 统 的 稳定 高 效 运 行 带 来 了 挑战 。 因 此 ， 新 型 能 源 
网 络 管理 系统 需要 建立 合理 的 模型 ， 以 便 将 新 能 源 集成 到 网 络 中 。 信 息 论 为 管 
理 天 气 系统 的 随机 性 提供 了 工具 。Fu 等 [106] 研究 了 基于 信息 论 在 集成 能 源 系 
统 中 建立 天 气 模型 的 方法 。 作 者 采用 了 Copula 函数 建立 天 气 变量 的 联合 分 布 模 
型 ， 并 采用 CE 计算 的 MI 作为 模型 准确 性 的 评价 指标 ， 以 指导 建 模 过 程 。 同 
时 ，MI 还 被 用 来 衡量 各 种 能 源 产 出 之 间 的 关联 强度 。 作 者 将 得 到 的 集成 能 源 系 
统 模 型 用 于 模拟 中 国 北方 某 地 区 的 能 源 系统 运行 情况 ， 并 与 实际 数据 进行 了 对 
th. 结果 显示 , 系统 模型 的 模拟 与 实际 情况 基本 符合 ,说 明 构建 的 天 气 模型 能 够 
满足 能 源 管理 系统 运行 需求 。 


5 


助 于 电网 调度 人 员 更 好 地 


u 


光伏 发 电 技术 受 天 气 等 环境 因素 影响 , FO BOK AS BE 
稳定 运行 构成 影响 。 根 据 气 象 条 件 等 因素 对 光伏 发 电站 有 功 功率 进 
串 定 调度 策略 ， 应 对 光伏 发 电 的 不 确定 和 
BUD. ACTEM SKB, 提出 了 一 种 结合 优化 算法 、 模 态 分解 、CE 和 深度 


学 习 模型 的 方法 ， 有 


于 提高 发 电功率 的 预测 精度 。 他 们 在 澳 大 利 
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E. 给 电网 的 安全 
行 预报 ， 有 
E 给 电网 的 冲 


|| Yulara 地 区 


光伏 电站 数据 上 将 方法 与 多 种 同类 方法 进行 了 对 比 ， 表 明 该 方法 得 到 的 模型 能 


够 更 好 地 适应 天 气 变化 的 影响 ， 取 
风能 作为 一 种 主要 的 清洁 能 源 ， 具 
I 和 控制 十 分 复杂 。 基 
E 特 征 ， 有 助 于 机 组 的 健康 


机 组 的 功率 预 涡 
量 之 间 的 相关 公 
url 


} 


= 


用 风能 资源 。 崔 双双 


4 日 ER 


得 最 好 的 预测 效果 。 


“有 间歇 性 和 不 到 


IA 
LL 


于 风电 机 组 的 


lv Wa 
状态 监 


Als esr [108] 提出 利 月 


f ae 
测 数据 ， 分 析 机 组 内 各 变 
测 和 风电 功率 预测 ， 从 而 更 好 
H CE 来 分 析 风 电机 组 状 


E 的 特点 ， 导 致 风电 


EL 
态 变量 


之 间 的 相关 性 ， 再 基于 CE 相关 性 进行 聚 类 以 得 到 机 组 工 况 的 划分 。 他 们 将 方 


法 应 月 


调度 和 规划 电力 输送 
E 等 特点 ,特别 是 受 天 气 因 素 的 影响 明显 。 因 此 , TJI 
模型 需要 考虑 天 气 等 多 种 因素 ， 
基于 CE 的 TE 方法 来 分 析 动 态 系 统 的 时 延 特性 ， 并 将 方法 应 月 


sess 


提出 利 月 


NEZ 


| 分， 具有 重 


由 于 广东 某 海上 风电 场 数据 采集 与 监控 《SCADA) 系统 的 数据 ， 发 现 CE 
方法 较 传统 方法 能 更 好 地 描述 数据 中 的 相关 色 
精确 地 反映 风电 机 组 运行 特性 和 状态 的 工 况 蕊 
电力 负荷 预测 是 根据 历史 数据 来 预报 未 来 一 段 时 间 的 有 


H K-means 方法 得 到 了 能 


要 的 现实 意义 。 
电量 ， 对 智能 电网 


具有 重要 意义 。 电 力 负荷 受 多 种 因素 影响 ， 


A 


TRAX RETI S ITE ETAT. Ma 


具有 周期 性 和 
的 电力 负荷 预 测 
14 
JFE 


洛 哥 缔 头 万 (Te&touan) 城 的 电力 消费 数据 ， 从 时 延 的 角度 分 析 了 五 种 天 气 因素 
对 该 城 三 个 电力 供应 网 络 的 负 蓓 的 影响 ,发 现 了 影响 的 每 日 时 延 变化 特征 。Yan 


等 [109] 提出 了 一 种 结合 聚 类 算法 、 预 测算 法 和 集成 学 习 方法 的 
期 预测 方法 ， 首 先 根据 负荷 数据 特性 对 数据 进行 聚 类 ， 再 对 每 类 数据 利 月 


CE 的 TE 算法 分 析 选 择 对 负荷 有 影响 的 外 部 因素 (包括 天 气 和 时 间 两 类 )， 最 


后 利 月 
居民 建 
RRHH, FA 
的 预测 性 能 ， 效 果 明 显 好 于 其 他 相关 性 
确 度 量 外 部 因素 和 负 蓓 之 间 的 时 序 非 线 怕 
E 的 风光 能 源 越 来 越 成 为 电力 能 源 的 重要 组 成 部 分 ， 如 何 保证 风光 电 
的 主要 关切 。 合 理 的 规划 对 于 
解决 此 关切 十 分 关键 ， 可 保证 建设 投资 回报 和 系统 合理 运行 ， 防 止 风 光 能 源 被 
的 发 生 。 储 能 系统 可 


力 接 入 的 经 济 效 益 和 安全 可 靠 是 可 再 生 能 源 利 月 


FF 


组 成 部 分 。 董 海燕 等 由 10| 提出 了 一 种 考虑 源 荷 时 序 相似 人 
J CE 衡量 风光 能 源 与 负荷 之 间 的 相似 性 ， 以 提高 系统 风光 能 
区 的 风光 火 储 联合 发 电 系统 的 规划 


置 方 法 ， 其 中 利 月 
源 的 利用 效率 。 他 们 将 方法 应 月 
配置 , 结果 表明 , 该 方法 能 有 效 降低 储 能 系统 的 装机 


集成 学 习 算法 对 负 
筑 综合 


H 


可 再 人 


能 源 负 蓓 数据 ， 以 预测 电力 、 燃 气 、 
EP CE 的 TE 算法 选择 的 外 部 因素 可 以 在 预测 模型 上 得 到 最 好 


和 荷 进 行 预测 。 他 们 将 方法 应 用 于 


Ti 


变量 选择 对 


以 平抑 风光 能 源 的 不 稳定 波动 人 


制冷 和 供 热 


Pr Ao 
综合 能 


iftud 
日 基于 


2018 年 美国 亚利桑那 
四 种 负荷 。 实验 结 


} 比 方法， 原因 是 TE 可 以 准 


E， 是 风光 系统 规划 的 
E 的 风光 储 协 同 规划 配 


HT EE ME pa 


pR E. 


FE, 


提高 新 能 源 的 消 纳 能 


5 实际 应 用 


力 ， 经 济 效益 和 减 排 效益 明显 。 
频率 是 电力 系统 最 重要 的 物理 量 指标 之 一 ， 频 率 稳 定性 是 保障 电力 供 
能 源 由 于 具有 不 可 预测 性 ， 其 大 


yg 


AE 


性 


的 一 个 基本 要 求 。 可 再 生 
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应 稳 
量 接 入 电网 给 电 


网 频率 稳定 性 带 来 了 挑战 。 为 了 稳定 和 控制 新 能 源 带 来 的 频率 波动 ， 需 要 准确 
快速 地 预测 系统 的 频率 稳定 性 ， 以 帮助 系统 操作 员 提 前 制定 控制 策略 。 传 统 的 
频率 稳定 性 预测 是 模型 驱动 的 ， 由 于 求解 耗 时 从 而 无 法 做 到 在 线 预 测 。 基 于 机 


器 学 习 的 模型 方法 ， 通 


过 简化 模型 以 提高 计算 效率 ， 可 以 满足 在 线 预测 的 需求 。 
Liu 4 [111] 提出 了 一 种 结合 深度 学 习 和 CE 的 频率 稳定 性 预测 方法 ，CE 被 用 
来 选择 模型 输入 变量 ， 减 少 元 余 信息 以 提高 计算 效率 。 作 者 将 方法 应 用 于 两 个 
系统 : 一 个 是 新 英格兰 39 节点 系统 ,集成 了 美 


国 西 部 电力 调度 委员 会 的 动态 风 


场 模 型 ; 另 一 个 是 基于 南 加 州 西部 的 电网 系统 建立 的 ACTIVSg500 系统 。 实 验 


AS 


E, 


ED 


的 电网 变量 ， 使 得 模型 


具有 了 可 解释 性 。 
电力 系统 宽频 振荡 由 电力 电子 设备 的 动态 交互 作 月 


引发， 


明 该 方法 建立 的 模型 相 较 同 类 模型 取得 了 最 好 成 绩 ， 达 到 了 实用 的 要 求 。CE 
方法 不 仅 简化 了 模型 、 大 幅 降低 了 计算 时 间 ， l 


日 分 析 发 现 了 与 频率 稳定 性 相关 


在 电网 中 的 传播 


会 造成 连锁 反应 , 严重 危害 电网 安全 和 运行。 宽频 振荡 激发 机 理 复杂 ,具有 显著 的 


时 变 、 


Fl 


= 


用 CE 的 模型 无 关 特 | 


该 方法 以 系统 运行 的 状态 参数 为 随机 变 


i=! 


FH 


SIE 


Bi 


阻尼 之 间 的 CE 来 选取 影响 振荡 的 关键 因素 ; 同时 ， 利 用 系统 


据 ， 计 算 系 统 变量 之 间 的 copula (RRNA, H 
定位 。 该 分 析 方 法 是 数据 驱动 的 方法 , TUAE RE 


分 析 结 果 。 作 者 仿真 了 直 驱 风机 六 


四 机 两 


非 线性 和 广 域 传播 等 特征 ， 难 以 有 效 地 进行 建 模 分 析 。 冯 双 等 fua s] 
生 ， 提 出 了 一 种 宽频 振荡 影响 因素 和 传播 路 径 分 析 方 法 。 
通过 计算 其 与 各 个 频率 区 间 的 振荡 


发 生 振 荡 时 的 数 


于 分 析 振 荡 的 传播 过 程 和 振 源 
模型 未 知 的 情况 下 得 到 相应 的 
F 网 系统 和 含 风电 场 的 


区 系统 ， 对 控制 


器 内 部 各 环节 和 复杂 系统 各 母线 之 间 的 振荡 因果 关系 进行 分 析 。 仿 真 结果 表明 ， 
该 方法 能 够 从 设备 级 和 网 络 级 两 个 层面 准确 确定 宽频 振 沪 的 传播 路 径 和 振 源 位 


置 ， 为 研究 振荡 传播 机 理 提供 


TEE, 为 进一步 采取 振荡 抑制 


nlite tt SE 


线 损 率 是 电力 能 源 企业 的 一 项 重要 经 济 技术 指标 ， 衡 量 其 经 济 效 益 水 平 的 
高 低 。 因 此, 线 损 管 理 和 异常 线 损 稽 查 是 电力 部 门 的 一 项 重要 工作 。 线 损 分 析 是 


= 


的 决策 支持 。Hu 等 [i4 提出 了 一 种 


利用 科学 的 计算 手段 分 析 线 损 在 电网 中 的 分 布 规律 


, 


能 为 管理 提供 
T TE 的 线 损 分 析 方法 ， 通 过 CE 估计 


高 效 、 准 确 


计算 每 个 用 户 对 区 域 总 线 损 的 TE 值 来 判断 其 对 总 线 损 的 贡献 。 他 们 基于 每 日 
电力 供应 和 线 损 数据 的 计算 分 析 ， 将 用 户 根据 线 损 贡献 度 排 序 ， 以 应 用 于 实际 
线 损 管 理工 作 中 ， 从 而 减少 总 线 损 率 。 


电价 预测 问题 在 电力 本 
合理 分 配 资源 。 但 新 能 源 的 广泛 
价 预测 变 得 更 加 复杂 ， 造 成 预测 模型 构建 较为 困 X 


He 


了 一 种 基于 
分 解 、 贝 叶 


斯 优化 和 LSTM 模型 相 结 


f, 


应 


具有 不 确 
作 。Xiong 和 Qing 提出 
时 序数 据 的 混合 电价 预测 框架 ， 将 基于 CE 的 特征 选择 方法 与 信号 
以 构建 预测 模型 。 他 们 将 方法 应 用 于 


场 参与 者 决 策 中 至 关 重 要 ， 可 以 帮助 其 开发 交易 策 
使 用 使 电力 供 


定性 ， 从 而 使 电 


5 实际 应 用 
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2017 年 美国 宾夕法尼亚 州 -新 泽 西 州 -马里 兰州 互联 网 络 (PJM) 电力 市 场 数据 


上 ， 证 明了 该 方法 的 有 效 性 和 实用 性 。 


锂电 池 是 使 有 


最 广泛 的 绿色 清洁 能 源 。 但 锂电 池 的 电池 容量 会 随 着 使 用 次 


数 而 退化 ， 因 此 电池 健康 状态 监测 是 电池 管理 系统 中 的 主要 问题 之 一 。 传 统 的 


u 


健康 状态 监测 模型 大 多 在 单一 负载 状况 假设 下 得 到 ， 无 法 适用 于 真实 场景 下 的 


多 种 状况 ， 导 致 在 原始 数据 上 得 到 的 模型 无 法 适应 新 的 情况 。 针 对 此 问题 ，Hu 
和 Wu [116] 提出 了 一 种 基于 迁移 学 习 思 想 的 电池 容量 估计 方法 ， 结 合 了 因果 分 
析 、 注 意 力 机 制 和 LSTM 等 工具 ， 其 中 基于 CE 的 TE 被 用 于 选择 与 容量 退 
化 相关 的 健康 状态 指标 ， 以 保证 构建 模型 在 不 同 状况 下 的 可 迁移 性 。 作 者 将 方 
法 应 用 于 NASA 的 3 种 负载 状况 下 的 锂电 池 退 化 数据 ， 结 果 表 明 ， 基 于 因果 分 


析 构 建 的 模型 比 


5.34 食品 工程 


于 两 种 传统 方法 的 模型 的 跨 工 况 预 测 准确 度 分 别提 高 了 8.676 
和 12.4%， 增 强 了 模型 的 鲁 棱 性 。 


和 葡萄酒 作 为 一 种 奢侈 农产品 ， 越 来 越 走 进 广大 普通 消费 者 。 和 葡萄 酒 质量 的 


品 鉴 对 其 生产 和 销售 都 至 关 重要 ， 和 葡萄 酒 酿造 业 大 量 投 入 在 质量 评价 环节 ， 以 


改善 酿造 工艺 六 


专家 的 味觉 感受 
和 专家 评价 之 间 的 内 在 联系 ， 以 增进 对 葡萄 酒 质量 的 理解 ， 提 高 质量 评价 的 客 


5.35 土木 建筑 


F 促 进 消费。 传统 的 质量 品 鉴 主要 依靠 理化 测试 和 专家 感受 ， 但 
主观 性 较 强 , 其 内 在 机 理 难 以 理解 。 因此 ,有 必要 研究 酒 的 成 分 


WHE. Lasserre 等 [117] 118] 利用 基于 CE 的 (条 件 ) 独立 性 度量 估计 , 提出 了 一 
种 因果 关系 网 络 学 习 算 法 ， 称 为 CMIIC， 并 将 其 应 用 于 著名 的 葡萄 牙 绿 酒 的 质 
量 评价 数据 上 ， 分 析 发 现 了 分 别 与 红 葡萄 酒 和 白 葡萄 酒 的 质量 相关 的 理化 成 分 。 


建筑 能 源 消耗 占 全 部 能 源 消耗 的 四 成 左右 ， 建 筑 节 能 技术 是 重要 的 绿色 能 
源 技术 ， 对 实现 联合 国 的 碳 中 和 目标 意义 重大 。 供 暧 、 通 风 和 空调 (HVAC) 系 


统 贡 献 了 商业 楼 宇 四 成 以 上 的 能 耗 ， 是 建筑 节能 的 主要 研究 对 象 之 一 。HVAC 
系统 的 运行 具有 时 延 的 特性 ， 来 自 于 媒介 传导 的 清 后 和 热 惯性 。 理 解 并 运用 这 


种 特性 ， 有 利于 设计 适当 的 控制 策略 ， 从 而 达到 节能 的 目的 。Li t [119] 将 基于 


CE 的 TE 理念 方法 引入 到 HVAC 领域 ， 开 发 了 一 种 基于 信息 论 框 架 的 无 模型 


时 延 鉴别 方法 ， 月 


HF HVAC 系统 的 时 序 预 测 。 他 们 改进 了 KNN 的 多 变量 TE 


估计 器 ， 结 合 优化 方法 设计 了 时 延 鉴别 算法 。 他 们 将 算法 应 用 于 大 连 某 四 层 教 
学 楼 的 供 热 监控 系统 ， 分 析 室 内 温度 与 天 气 参数 (如 室外 温度 、 相 对 湿度 、 太 阳 


辐射 、 风 速 等 ) 和 供 


热 参数 (如 热 水 供 应 和 回流 温度 等 ) 的 数据 ， 鉴别 时 延 特 性 ， 


进而 利用 后 两 组 参数 预测 下 一 段 时 间 的 室温 。 结 果 表 明 ，TE 方法 能 够 鉴别 参数 


之 间 的 时 延 关 系 特 
工程 变形 


IA 
Ut. 


生 ， 进 而 提高 室温 预测 性 能 。 
测 是 工程 测量 领域 的 重要 问题 之 一 ， 需 要 保证 监测 精度 和 可 靠 


5 实际 


只 针对 单个 监测 
AAEM KH 


等 (120) 


z 


2021 年 


围 点 之 间 的 相关 愧 
型 来 进行 长 时 间 的 变 


性 ， 对 大 型 工程 的 施工 运营 安全 
点 的 建 模 和 预测 ， 
用 这 种 相关 性 


E， 因 而 可 以 利 


提出 了 一 种 


于 自 注意 力 机 制 的 变 


形 监 测 方法 ， 


2: | 


10 月 间 围 卉 


的 效果 ， 


5.36 


大 件 货物 运输 是 指 通 过 多 种 运输 方式 对 具 
业 运 输 作 业 活 动 ， 在 国民 经 
施 建 设 起 着 重要 的 支撑 和 保障 作用 ， 也 关系 着 国防 军事 和 
需要 铁路 、 航 运 等 多 式 联运 的 方式 才 
环节 模块 联动 的 整体 方案 。 随 着 交通 系统 的 数字 化 ， 大 量 


运输 大 都 需 


对 实际 工程 围 


交通 运输 


AGT 


。 他 们 将 方法 应 月 
ine I 点 位 的 位 移 数 据 ， 
医 预 警 等 长 期 变形 预测 问题 具 


有 


中 占有 重要 地 位 ， 


具有 重要 意义 。 常 见 的 变 
但 变形 体内 部 监测 点 间 不 是 孤立 的 ， 而 是 具 
提高 单 点 监测 的 预测 精度 。 昔 和 久 巷 
ES] 


有 不 可 拆 解 属 愧 
对 国计民生 重点 行业 的 基 
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ti hil 


采用 CE BES 


用 这 些 相 关 点 组 成 的 数据 集训 练 自 注意 力 机 制 的 模 
于 某 隧 道 施工 段 2020 年 12 月 至 

以 预测 7 天 的 变形 ， 获 得 了 较 好 
良好 的 应 用 价值 。 


积累 ， 基 于 数据 的 大 件 货 物 运输 
于 提高 方案 制定 的 科学 性 和 适用 性 。 
了 一 种 基 


案 分 解 为 多 个 局 部 环节 模块 ， 再 利 


于 模块 链 构建 的 大 件 货 


三 


Z 


属性 


斯 性 ， 


EZA J 


而 CE 由 于 具有 普 适 


该 方法 ， 
航空 


价 的 市 场 化 水 平 处 于 落后 的 水 平 ， 欠 缺 灵 活 怕 
的 因素 以 期 改进 高 铁 票 价 的 定价 机 利 


In] 


TE 
并 构建 了 方案 
s 和 高 速 铁路 是 我 


则 依然 


于 京 沪 航 空 和 高 铁 票 价 的 数据 ， 利 


Ab > 
KE JG 


成 ， 


国家 安全 。 大 件 货 物 


形 监 测 分 析 方 法 一 般 


E 的 大 型 物件 的 专 
础 设 


需要 制定 各 个 局 部 运输 


WES 


3i 121] 利 月 


= 


X) A I 7; 3e 


制定 方法 。 


E 和 动态 性 。 


用 CE 和 决策 树 等 工具 


的 相关 方案 数据 得 到 
制定 成 为 了 一 个 重要 的 问题 ， 其 研究 有 助 
用 CE 等 多 种 数学 工具 
该 方法 先 将 运输 方 
用 CE 等 相关 性 度量 工具 筛选 一 组 模块 属性 
用 于 计算 方案 之 间 的 相似 度 ， 最 后 在 已 有 运输 案例 库 中 检索 与 目标 运输 任务 相 
似 度 高 的 案例 作为 初步 运输 方案 。 由 于 大 件 运 输 方案 的 多 样 怕 
FAR dE 


提出 


生 ， 一 些 案 例 模 块 
使 得 传统 的 相关 系数 工具 不 再 适用 于 计算 属性 间 相 关 性 
适用 。 作 者 在 600 多 个 实际 案 
制定 原型 系统 。 
国 最 主要 的 两 种 旅客 运输 方式 。 相 较 于 航空 
因此 ， cdd 


La) 


例 的 数据 上 验证 了 


高 铁 票 


是 学 界 十 分 关心 的 问题 。 许 罗 豪 等 由 23| 基 


旅 


二 者 的 影响 程度 较为 相似 。 


H 


城市 交 
依 


客 选择 、 出 行 效率 和 出 行路 线 四 类 因素 对 航空 和 高 铁 票 价 的 影响 。 他 们 发 现 购 
票 提 前 期 对 两 种 票 价 的 影响 程度 不 同 ， 但 旅行 时 间 对 
这 些 研究 结论 对 高 铁定 价 具有 一 定 的 参考 价值 。 

城市 轨道 交通 已 经 成 为 我 国 各 大 城市 的 主要 交通 出 行 方式 之 一 ， 提 升 城 
轨道 交通 系统 的 管理 水 平和 运营 效率 是 交通 系统 面临 的 重要 问题 之 一 。 
通 客 流 分 析 与 预测 可 以 为 正常 客流 引导 、 异 常客 流 玖 导 和 轨道 列车 调度 提供 
据 。 基 于 出 行 记录 数据 分 析 轨 道 交 通 和 公交 、 出 租车 等 其 他 交通 方式 客流 之 间 


的 互动 关系 ， 有 助 于 提升 轨道 交通 客流 预测 效果 。 王 升 2 引 提出 利 月 
和 因果 分 析 等 方法 对 客流 时 序数 据 进行 分 析 ， 
关系 的 理解 。 其 中 ， 


tT CE 


以 增进 


相关 分 析 
对 不 同 交 通 方 式 客流 之 间 


的 TE 方法 被 用 于 客流 间 因 果 关 系 分 析 。 他 将 方 
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法 应 用 于 苏州 市 轨道 交通 系统 四 个 站 点 2018 年 8 月 6 日 至 12 日 期 间 的 轨道 交 
通 、 公 交 和 出 租车 客流 时 序数 据 ， 因 果 分 析 结 果 表明 ,三 元 坊 和 东 环 路 站 的 出 租 
车 客流 到 轨道 交通 进 站 客流 的 影响 有 1 小 时 的 滞后 效应 ， 而 东方 之 门 站 的 这 种 
清 后 效应 则 有 5 小 时 。 这 一 分 析 结 果 对 轨道 交通 站 点 的 客流 预测 具有 重要 指导 


5.37 ”制造 工程 


产品 质量 是 制造 业 的 生命 。 注 射 成 型 (injection molding) 是 近年 快速 发 展 
的 工业 制造 技术 ， 在 航天 、 建 筑 、 通 讯 等 领域 有 着 广泛 应 用 。 注 射 成 型 过 程 包 
括 了 多 步 复杂 的 物理 和 化 学 反应 过 程 ， 很 容易 受到 外 部 因素 的 影响 ， 保 证 塑料 
产品 质量 的 稳定 性 是 一 个 难题 。 基 于 制造 过 程 历史 数据 ， 建 立 产 品质 量 预测 模 
型 是 提高 产品 质量 的 手段 之 一 。 但 建立 模型 需要 首先 选择 有 关 的 过 程 参数 作为 
模型 给 入， 以 获得 较 好 的 预测 性 能 。Sun 等 [24] 提出 基于 CE 方法 选择 过 程 参 
数 变 量 用 于 构建 质量 预测 模型 ， 并 将 方法 应 用 于 真实 的 富士 康 公司 的 注射 成 型 
生产 过 程 数 据 ， 大 幅 改 善 了 质量 预测 的 性 能 。Cai 和 Rong [125] 提出 了 一 种 鉴 
别 影响 质量 的 关键 因子 的 方法 ， 首 先 利用 CE 建立 因子 间 相关 和 矩阵， 再 用 网 络 
反 卷 积 方法 消除 因子 之 间 的 间接 影响 ， 从 而 鉴别 出 影响 质量 的 关键 因子 。 他 们 
将 方法 应 用 于 UCT 机 器 学 习 库 的 三 个 数据 集 ， 结 果 表 明 该 方法 能 够 较 同 类 方法 
更 高 效 地 鉴别 关键 因子 并 取得 最 高 的 预测 准确 率 。 他 们 又 将 方法 应 用 于 一 个 薄 
膜 晶体 管 液晶 显示 器 生产 的 实际 数据 ,结果 显示 ， 该 方法 从 1540 个 因子 中 选 出 
154 个 因子 ， 并 得 到 了 最 好 的 质量 预测 精度 。 

复杂 机 械 产品 的 整 机 制造 包括 设计 、 制 造 和 装配 三 个 环节 。 作 为 产品 生 让 
的 最 后 一 个 环节 ， 装 配 过 程 在 零 部 件 的 制造 过 程 基 础 上 组 装 高 精度 产品 ， 装 配 
质量 控制 在 零 部 件 制造 质量 的 基础 上 保障 整 机 产品 质量 。 复 杂 机 械 产 品 零 部 件 
数量 种 类 繁多 、 相 互 关联 , 装配 环节 错综复杂 ， 上游 环节 的 装配 质量 误差 会 对 下 
游 环节 质量 构成 影响 。 王 小 巧 [126] 在 装配 质量 控制 中 考虑 了 上 下 游 工 序 和 质量 
控制 点 之 间 的 相关 性 ， 利 用 Copula 对 控制 点 间 相关 关系 建 模 ， 并 用 CE 度量 这 
种 相关 性 ， 进 而 提出 了 一 种 装配 质量 控制 点 控制 阀 优化 方法 。 她 将 方法 应 用 
江淮 汽车 某 型 汽油 发 动机 关键 零 部 件 缸 盖 的 装配 工序 过 程 ， 验 证 了 方法 的 有 效 
性 


现代 工业 系统 变 得 越 来 越 高 度 复杂 和 自动 化 ， 使 得 工业 过 程 监测 变 得 愈加 
困难 。 如 何 监测 系统 异常 并 发 现 异常 原因 是 一 个 具有 广泛 应 用 的 重要 问题 。 利 
用 因果 分 析 得 到 工业 系统 内 部 复杂 的 因果 关系 图 ， 有 助 于 准确 发 现 异常 的 传播 
路 径 ， 进 而 及 时 进行 干预 。Dong 等 [127] 提出 了 一 个 结合 动态 PCA, TE 和 
LSTM 的 故障 分 析 框架 ， 其 中 基于 CE 的 TE 被 用 分 析 系 统 内 的 因果 关系 。 作 
者 将 该 方法 应 用 于 辽宁 带 钢 的 热 轧 带 钢 工艺 过 程 数 据 的 分 析 ， 成 功 地 对 过 程 中 
的 两 个 故障 及 其 原因 进行 了 分 析 。 作 者 还 将 基于 TE 的 因果 图 分 析 方法 与 同类 
格 兰 杰 因果 分 析 方 法 进行 了 对 比 ， 表 明 TE 方法 能 够 更 准确 地 对 故障 进行 根 因 
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分 析 。 刘 月 阳 [128] 提出 了 一 种 动态 过 程 分 布 式 监控 的 CE-DR-SVDD 方法 , 首 
先 利用 基于 CE 的 Louvain 算法 对 系统 变量 分 组 ， 再 利用 动态 递归 支持 向 量 数 
据 描述 算法 构建 局 部 监控 模块 ， 最 后 利用 贝 叶 斯 推理 融合 局 部 监控 结果 来 得 到 
全 局 监控 结果 。 他 将 方法 应 用 到 田纳西 伊 斯 曼 过 程 的 实验 数据 上 ， 并 与 同类 方 
法 进行 了 对 比 ， 结 果 发 现 该 方法 在 仿真 的 21 个 故障 中 的 19 个 上 获得 了 最 好 的 
检测 结果 。 

烧结 过 程 (Sintering Process: SP) 在 钢铁 工业 中 至 关 重 要 ， 同 时 也 会 消耗 
量 的 能 源 。 动 态 预 测 SP 的 碳 消耗 有 助 于 节约 能 源 和 减少 碳 排放 。 传 统 的 SP 
建 模 基于 一 定 的 假设 ， 无 法 适应 SP 的 系统 动态 特性 ， 基 于 数据 的 机 器 学 习 模型 
可 以 克服 传统 模型 的 不 足 。Hu 等 [29] 提出 了 一 种 动态 建 模 方法 框架 ， 可 以 自 
动 识别 过 程 工 况 状态 ， 从 而 进行 碳 消耗 预测 。 该 方法 框架 结合 了 AKFCM 3828 
算法 、 基 于 CE 的 模型 选择 和 宽度 学 习 模型 方法 。 作 者 在 一 家 钢铁 企业 的 实际 
数据 上 验证 了 方法 的 有 效 性 ， 证 明了 CE 可 以 快速 地 捕 提 不 同 工 况 下 SP 中 复 
杂 的 相关 关系 模式 ， 从 而 使 该 方法 能 够 比 传统 方法 更 准确 地 预测 烧结 碳 消耗 。 


5.38 ”可靠 性 工程 


退化 过 程 (degradation processes) 在 各 种 工程 系统 中 普遍 存在 ， 导 致 系统 
可 靠 性 的 降低 甚至 失效 ， 如 金属 材料 的 疲劳 和 腐蚀 、 半 导体 器 件 的 参数 漂移 等 。 
退化 过 程 建 模 是 评估 系统 和 产品 有 效 性 和 寿命 的 主要 技术 手段 之 一 。 由 于 现代 
系统 的 复杂 性 ， 影 响 退化 过 程 的 因素 较 多 ， 因 素 变量 本 身 具 有 非 线性 特征 ， 且 
变量 之 间 又 相互 关联 ， 从 而 对 退化 过 程 建 模 构成 了 可 靠 性 工程 的 一 个 基本 难题 。 
如 果 建 模 时 忽略 了 因素 之 间 的 相关 性 ， 就 会 导致 模型 错误 和 可 靠 性 估计 误差。 传 
统 的 衡量 因素 之 间 的 相关 性 主要 采用 线性 相关 系数 ， 难 以 处 理 复杂 的 相关 关系 。 
Sun 等 [130] 提出 采用 copula 对 过 程 因 素 之 间 关 系 建 模 ， 并 用 CE 来 度量 退化 
过 程 因素 之 间 的 关联 。 他 给 出 了 一 种 参数 化 CE 估计 方法 ， 并 成 功 应 用 于 微波 
电子 组 件 的 退化 过 程 分 析 中 。 结 果 表 明 ， 该 方法 能 够 分 析 不 同 阶段 的 退化 过 程 。 


5.39 化 学 工程 


故障 诊断 对 化 学 过 程 的 安全 、 高 效 运行 至 关 重 要 ， 数 据 驱动 的 故障 诊断 方 
法 是 实际 生产 运行 中 的 主要 方法 之 一 。 为 了 构建 诊断 模型 ， 构 建 合理 的 正常 和 
故障 状态 的 过 程 表示 是 问题 的 关键 环节 。Yin 等 [121] 提出 了 一 种 基于 CE 的 灰 
度 相关 空间 的 故障 诊断 方法 ， 通 过 变量 之 间 的 CE 相关 性 矩阵 来 刻画 过 程 的 正 
常 和 故障 状态 ， 再 将 矩阵 作为 卷 积 神经 网 络 的 输入 来 构建 故障 分 类 模型 。 他 们 
将 方法 应 用 于 田纳西 伊 斯 曼 (Tennessee Eastman) 过 程 的 故障 诊断 数据 ， 结 果 
表明 该 方法 取得 了 9596 以 上 的 诊断 准确 率 ， 验 证 了 方法 的 有 效 性 。 主 元 分 析 法 
(PCA) 是 一 种 常用 的 多 变量 过 程 检测 方法 ， 原 理 是 基于 最 大 方差 准则 从 一 组 过 
程 变量 构建 过 程 检测 统计 量 ， 但 其 仅 适 用 于 线性 的 情况 。Wei 和 Wang [132] 提 
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出 了 一 种 基于 CE 的 非 线性 PCA 方法 (CEPCA), 从 具有 非 线 性 特征 的 CE 48 
阵 得 到 过 程 检测 统计 量 。 他 们 将 方法 应 用 于 田纳西 伊 斯 曼 过 程 数据 ， 并 与 PCA 
方法 进行 了 对 比 ， 结 果 表 明 ，CEPCA 方法 获得 了 更 好 的 故障 检测 率 结果 。Pan 
等 [133] 提出 了 一 个 基于 关联 故障 因果 图 构建 的 故障 传播 和 根 因 分 析 方 法 , 称 为 
KPCA-DTMTE， 其 中 基于 CE 的 TE 被 用 于 分 析 因 果 关 系 。 他 们 将 该 方法 应 
用 于 田纳西 伊 斯 曼 过 程 ， 证 明了 方法 能 够 追踪 故障 传播 路 径 并 获知 故障 发 生 原 
因 。 

理解 化 工 过 程 变量 之 间 的 因果 关系 对 于 过 程控 制 十 分 重要 ， 有 助 于 更 好 的 
过 程 监测 和 故障 诊断 。 利 用 因果 发 现 方法 构建 化 工 过 程 因果 关系 图 ， 可 以 对 故 
障 进行 根 因 分 析 ， 是 故障 诊断 的 重要 方法 之 一 。Bi 等 fad) 提出 了 一 种 基于 深 
度 学 习 进 行 因果 发 现 的 CGTST 方法 ， 并 与 基于 CE 的 TE 等 多 种 方法 进行 了 
对 比 。 实 验 结果 表明 ,在 一 个 5 变量 的 连续 搅拌 槽 式 反应 器 数据 上 ，TE 方法 获 
得 的 反应 图 结果 非常 接近 于 真实 情况 ; 在 田纳西 伊 斯 曼 过 程 数 据 上 ，TE 方法 也 
取得 了 接近 于 真实 情况 的 估计 结果 ， 体 现 出 了 较 强 的 实用 性 。 


5.40 ”航空 航天 


航空 飞行 器 系统 日 趋 复杂 ， 飞 行 器 设计 首先 需要 加 深 对 其 总 体 设计 参数 的 
认识 。 对 各 种 设计 参数 间 的 耦合 关系 的 理论 分 析 ， 有 助 于 分 析 设计 方案 可 行 性 
或 优化 总 体 设计 方案 。Krishnankutty 等 [139] 基于 CE 与 MI 的 等 价 关系 ， 提 
出 了 两 种 基于 Copula 的 MI 估计 方法 ， 并 将 方法 应 用 于 美国 22 种 喷气 战斗 机 
的 技术 参数 数据 的 分 析 ， 估 计 了 飞行 航程 和 可 承受 负载 之 间 的 耦合 关系 ， 验 证 
了 分 析 方法 的 有 效 性 。 
卫星 是 航天 时 代 的 主要 航天 器 类 型 ， 在 信息 时 代 有 着 广泛 的 民事 和 军事 用 
途 。 作 为 一 种 在 极端 环境 运行 的 复杂 系统 ， 卫 星 的 在 轨 健 康 状态 监测 十 分 重要 。 
卫星 过 测 数据 是 各 种 传感器 参数 的 编码 ， 包 含 了 卫星 内 部 运行 系统 物理 参数 的 
交互 关系 信息 。 卫 星 的 异常 模式 会 由 于 这 种 交互 而 在 内 部 传播 ， 因 此 分 析 这 种 
内 部 交互 导致 的 故障 传播 链条 有 助 于 及 时 发 现 卫星 异常 状态 ， 保 障 卫 星 正常 运 
行 。 分 析 遥 测 参数 之 间 的 因果 关系 是 一 种 解决 问题 的 路 径 。Liu 等 [136] 提出 直 
接 将 基于 CE 的 TE 应 用 于 分 析 真实 的 卫星 通 测 数据 ， 得 到 了 通 测 参数 之 间 的 
故障 传导 图 ， 结果 要 优 于 传统 的 TE 方法 。Zeng 等 [137] 提出 了 一 种 改进 的 TE 
度量 ， 称 为 NMCTE， 用 于 分 析 遥 测 参数 之 间 的 因果 关系 网 络 ， 该 度量 利用 了 
基于 CE 的 TE 表示 和 估计 方法 。 他 们 又 提出 了 基于 所 得 因果 网 络 的 异常 检测 
的 CN-FA-LSTM 方法 。 他 们 将 NMCTE 方法 应 用 于 真实 的 卫星 遥测 数据 ， 得 
到 了 具有 良好 的 可 解释 性 的 因果 网 络 。 他 们 又 将 CN-FA-LSTM 方法 在 NASA 
公开 的 SMAP 和 MSL 数据 集 上 与 其 它 6 种 方法 进行 了 对 比 ， 验 证 了 方法 的 优 
越 性 。 
涡 扇 发 动机 是 喷气 式 飞机 最 常用 的 发 动机 ， 具 有 高 效 、 可 靠 和 节能 的 特点 ， 
是 现代 航空 业 的 关键 设备 之 一 。 涡 扇 发 动机 结构 复杂 ， 且 长 期 在 极端 环境 下 运 
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行 ， 导 致 其 容易 出 现 磨损 和 老化 ， 因 而 监测 其 健康 状态 ， 进 而 开展 故障 预测 和 
维修 保养 ， 对 于 保障 航空 安全 、 提 高 涡 扇 发 动机 的 可 靠 性 和 使 用 寿命 至 关 重要 。 
因而 ， 如 何 评估 发 动机 的 健康 状态 是 一 个 基础 性 的 关键 问题 。 贾 如 侠 [138] 提出 
了 一 种 涡 扇 发 动机 的 健康 指标 ， 采 用 证 据 推理 方法 融合 发 动机 传感器 监测 数据 
度量 发 动机 健康 状态 ， 其 中 CE 被 用 于 推理 过 程 中 计算 发 动机 传感器 变量 的 可 
靠 度 。 他 将 方法 应 用 于 NASA 格林 中 心 提供 的 引擎 性 能 退化 模拟 数据 集 ， 并 与 
两 种 传统 方法 进行 了 对 比 ， 结 果 表 明 新 方法 对 发 动机 健康 状态 的 评估 效果 更 好 ， 
这 得 益 于 方法 融合 了 基于 CE 度量 的 传感器 变量 间 非 线性 相关 性 信息 。 他 进 一 
步 利 用 得 到 的 一 维 复合 健康 指标 建立 了 发 动机 故障 预测 模型 和 剩余 寿命 预测 模 
型 ， 都 获得 了 较 对 比方 法 更 精确 的 预测 效果 。 

航班 延误 是 影响 国际 民航 业 正常 有 效 运行 的 主要 问题 之 一 ， 不 仅 给 旅客 千 
成 出 行 不 便 , 也 给 航空 业 带 来 巨大 经 济 损失 。 航空 系统 是 一 个 有 机 的 整体 , 运行 
中 存在 航班 资源 的 上 下 游 共享 ， 带 来 了 系统 耦合 ， 导 致 上 游 航班 的 到 港 延 误会 
向 下 游 传播 ， 因 此 航班 延误 管控 首先 需要 对 这 种 延误 因果 关系 进行 分 析 。 吴 格 
等 [139] 提出 利用 一 种 基于 CE 的 TE 估计 器 来 分 析 机 场 的 航班 延误 时 间 序列 
之 间 的 因果 关系 强度 的 方法 ， 使 民航 信息 系统 具有 了 分 析 两 个 航班 之 间 是 否 具 
有 延误 因果 关系 的 能 力 ， 从 而 能 够 深入 理解 和 利用 航空 系统 节点 间 航 班 延误 的 
内 在 关系 。 


5.41 车 辆 工程 


现代 汽车 的 电子 设备 系统 由 车 载 网 络 连接 集成 ， 提 高 了 乘坐 的 舒适 性 、 
全 性 和 多 功能 特性 。 但 随 着 智能 车 辆 技术 的 发 展 ， 车 内 设备 也 成 为 了 黑客 攻 
的 对 象 ， 对 车 辆 安全 构成 了 威胁 。CAN 总 线 是 一 种 智能 车 辆 内 连接 控制 各 个 车 
辆 电子 组 件 的 数据 通信 协议 ， 已 在 汽车 领域 成 为 事实 上 的 主流 标准 ， 但 由 于 缺 
乏 加 密 、 认 证 等 机 制 ， 其 在 网 络 攻击 面前 非常 脆弱 。 因此, 研究 CAN 总 线 的 人 
侵 检测 技术 成 为 了 提高 其 安全 性 的 主要 技术 手段 之 一 。Gao 等 [140] 提出 了 一 
种 轻 量 级 神经 网 络 设计 方法 ， 用 于 检测 CAN 总 线 入 侵 事 件 ， 其 首先 分 析 异 党 
CAN 数据 帧 的 属性 集合 ， 再 利用 CE 选择 出 众多 属性 中 与 人 侵 攻 击 有 关 的 少数 
属性 ， 再 利用 这 些 属 性 构建 一 种 CanNet 神经 网 络 检测 器 以 检测 人 侵 。 他 们 利 
用 现代 汽车 索纳塔 YF 的 CAN 总 线 数据 验证 了 CanNet 方法 ， 结 果 表 明 该 方 
法 与 同类 方法 相 比 具有 高 检测 率 、 高 实时 性 和 低 内 存 占用 的 优点 。 


对 


inn 


5.42 电子 工程 


半导体 芯片 的 集成 度 的 不 断 提高 ， 对 微 电 子 封装 的 要 求 也 越 来 越 高 。 微 电 
子 封装 起 着 隔绝 外 部 环境 、 散 发 内 部 热量 的 功能 ， 对 集成 电路 的 稳定 运行 具有 
至 关 重 要 的 保护 作用 。 这 就 要 求 封装 材料 具有 良好 稳定 性 、 高 强度 , 同时 还 要 满 
足 其 他 物理 性 质 。 刘 勃 fa 以 Cu 基 材 料 为 主体 ， 建 立 CuNi 二 元 合金 体系 ， 
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利用 第 一 性 原理 与 机 器 学 习 相 结合 的 方法 ， 基 于 团 艇 相关 函数 特征 ， 预 测 分 别 
与 材料 强度 和 稳定 性 相关 的 构 型 能 和 杨 氏 模 量 。 作 者 利用 CE 分 析 了 预测 模型 
的 合理 性 ， 通 过 计算 特征 之 间 的 相关 性 ， 以 及 特征 与 构 型 能 和 杨 氏 模 量 之 间 的 
相关 性 ， 发 现 模型 特征 与 杨 氏 模 量 之 间 的 相关 性 更 高 ， 同 时 构 型 能 与 杨 氏 模 量 
之 间 的 相关 度 较 低 ， 增 进 了 模型 的 可 解释 性 ， 有 助 于 设计 更 合理 的 材料 性 质 预 
测 模型 。 


5.43 ”通信 工程 
通信 安全 是 移动 通讯 的 主要 关切 之 一 ， 一 般 通过 通信 层 的 加 密 技 术 加 以 解 
决 。 在 资源 受 限 的 新 兴 网 络 (如 IoT、WSN 等 ) 中 ， 密 钥 分 发 是 一 个 挑战 。 无 
线 信 道 的 互 易 性 为 通信 双方 提供 了 共享 密 钥 的 机 制 ， 双 方 可 通过 测量 无 线 信 道 
获取 密 钥 . 密 钥 容量 概念 为 无 线 信 道 密 钥 提取 提供 了 理论 上 限 。 然而 , 现实 中 密 
钥 容 量 往往 受到 诸多 实际 物理 条 件 (如 终端 移动 、 信 道 噪声 等 ) 的 限制 , 需要 对 
其 进行 定量 分 析 。Wang 等 [142] 研究 了 均匀 散射 环境 下 物理 因素 对 密 钥 容量 的 
影响 ， 将 其 转化 为 随机 变量 的 MI 计算 问题 ， 并 基于 仿真 物理 环境 验证 其 理论 
推导 的 正确 性 ， 仿 真实 验 采用 了 基于 CE 的 MI 估计 算法 估计 密 钥 容量 。 仿 真 
结果 表明 ， 理 论 推导 得 到 了 验证 ， 能 够 指导 实际 应 用 。 
第 6 代 (6G) 通信 网 络 技术 的 研发 需要 面 对 的 主要 挑战 之 一 就 是 要 达到 更 
高 的 数据 传输 率 ， 以 满足 更 极致 的 体验 、3D 视觉 、 工 业 智能 等 场景 需求 。 传 统 
的 通信 理论 没有 考虑 传输 信息 中 的 语义 信息 ， 而 6G 技术 可 以 利用 基于 AI 的 
语义 通信 来 达到 更 高 的 网 络 传输 性 能 。 传 宇 舟 等 [142] 提出 了 一 种 面向 6G 网 络 
的 基于 语义 通信 的 端 到 端 服务 框架 ， 将 语义 通信 与 AI 的 语义 分 析 能 力 相 融 合 ， 
利用 基于 Transformer 的 编 解码 器 来 压缩 语义 信息 。 其 中 ， 语 义 编码 器 的 损失 
函数 由 基于 欧式 距离 的 语义 损失 函数 和 基于 CE 的 信息 量 损失 函数 组 成 。 他 们 
利用 图 像 数据 验证 了 该 服务 框架 ， 使 用 ImageNet-1K 数据 集训 练 框架 ， 再 使 用 
VOC2012 数据 集 进行 仿真 验证 。 结 果 表 明 ， 与 传统 通信 方案 相 比 ， 该 服务 框架 
在 目标 检测 和 图 像 语义 重建 上 均 取 得 了 最 优 性 能 ， 且 取得 了 与 全 语义 特征 传输 
方案 相近 的 性 能 ， 有 望 成 为 6G 网 络 的 技术 内 容 。 


N 


5.44 ”高 性 能 计算 

提高 能 源 效率 是 高 性 能 计算 研究 的 一 个 重要 目标 。 通 过 配置 程序 的 最 优 能 
效 设置 ， 如 处 理 器 频率 等 ,可 以 降低 程序 执行 时 的 能 耗 。 但 决定 最 优 配置 是 一 个 
费时 的 过 程 ， 程 序 一 旦 修改 就 需要 重新 配置 。 利 用 机 器 学 习 方法 通过 性 能 事件 
来 自动 决定 最 优 配置 是 一 个 新 的 研究 方向 ， 但 需要 确定 哪些 事件 是 能 效 相关 的 
以 决定 最 优 配置 。Gocht-Zech 提出 利用 特征 选择 的 方法 来 选择 能 效 相关 事 
件 ， 他 选择 了 6 种 特征 选择 方法 ， 并 基于 CE 理论 给 出 了 相应 的 估计 方法 。 实 
际 数据 实验 表明 该 基于 copula 的 方法 能 够 鉴别 出 能 效 相关 的 性 能 事件 ， 从 而 提 
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高 程序 执行 时 的 能 效 ， 在 增加 776 运行 时 的 成 本 下 节省 了 24% 的 能 源 消耗 。 


5.45 ”测绘 遥感 


高 光谱 通 感 是 应 用 广泛 的 前 沿 测绘 技术 ， 通过 通 感 光谱 成 像 ， 能 够 获取 不 
同 地 物 的 诊断 性 光谱 信息 。 由 于 高 光谱 图 像 波段 数 多 ， 数 据 大 且 存 在 大 量 元 余 
信息 ， 需 要 利用 特征 提取 技术 对 有 效 波段 进行 选择 ， 以 表征 成 像 对 象 体 。 因 此 ， 


高 光谱 图 像 波 段 选择 是 该 领域 的 重要 问题 之 一 ， 主 要 思想 是 选择 
使 得 成 像 评价 准则 函数 达到 最 大 。 其 中 ， 
方法 之 一 。Zeng 和 Durrani [145] 提出 利用 基于 CE 的 MI 选择 波段 的 方法 ， 并 
将 其 应 用 于 美国 印第安 纳西 北 的 Indian Pine 处 采集 的 真实 高 光谱 数据 , 结果 表 


个 波段 子 集 ， 
于 信息 论 的 准则 是 波段 选择 的 主要 


明 CE 提供 了 一 种 鲁 棒 的 MI 波段 选择 方法 。 


5.46 ”金融 工程 


基于 金融 交易 系统 产生 的 大 量 金融 市 


量化 金融 是 通过 对 金融 数据 的 数量 关系 分 析 指 导 金 融 决 策 的 新 兴 金 融 学 科 。 
万 交 易 数 据 ， 利 用 数学 工具 分 析 金 融 产 品 
之 间 的 数量 关系 ， 可 以 明晰 市 场 规律 和 动态 ,进而 管理 金融 资产 。 其 中 ,分析 市 


场 金融 变量 之 间 的 相关 性 是 金融 工程 的 重要 问题 ， 可 以 帮助 交易 员 洞 察 它们 之 


间 的 动态 关系 ， 进 而 调整 投资 组 合 和 管理 风险 。 由 于 金融 市 场 变量 具有 非 线性 、 


非 高 斯 性 等 特征 , 使 得 MI 成 为 了 理想 的 相关 性 度量 , 而 MI 估计 算法 则 成 了 量 
。 基 于 CE 的 MI 估计 算法 就 被 量 
MLFinLab 实现 ， 并 得 到 业界 广泛 应 用 。 
于 中 国 股票 市 场 ( 沪 市 A 股指 数 、 深 市 A 股指 数 和 沪 深 300 指数 ) 真实 


化 金融 工具 箱 的 重要 工具 之 


金融 算法 库 


数据 ，Wang [147] 研究 了 利用 股票 资产 之 间 的 相关 性 关系 网 络 ， 优 化 投资 组 合 
的 方法 。 方 法 采用 了 包括 CE 在 内 的 线性 和 非 线性 相关 性 度量 ， 基 于 相关 性 强 
度 构建 股票 资产 间 的 关系 网 络 ， 进 而 构建 投资 组 合 。 研 究 中 估计 了 不 同 Copula 
参数 函数 族 的 CE (MI). Beh [148] 研究 了 投资 标的 筛选 的 问题 ， 他 基于 净 


资产 收益 率 、 净 利润 三 年 复合 增长 率 和 了 


E zd A 股 4000 多 家 上 市 


公司 中 初步 筛选 了 10 家 A 股 上 市 公司 ， 再 利用 CE 等 工具 对 标的 股票 的 价格 
数据 进行 了 统计 分 析 ， 以 判断 投资 组 合 的 抗 风 险 能 力 。 


股票 市 场 的 投资 者 总 是 希望 投资 发 展 良好 的 上 市 公司 ， 因 此 甄别 


UL EH 
只 股票 


的 好 坏 对 投资 者 十 分 重要 。ST 股票 制度 是 在 我 国 A 股市 场 实施 的 股票 风险 警 


示 机 制 ， 有 助 于 投资 者 选择 投资 组 合 


规避 风险 。 股 票 分 类 是 股票 分 析 领 域 的 
一 类 重要 问题 ,对 金融 市 场 投资 者 具有 参考 价值 。 朱 仲 儿 (149) 提出 了 一 种 基于 
机 器 学 习 方法 的 ST 股票 分 类 方法 ， 采 
BE, 再 利用 6 种 回归 模型 进行 预测 ， 利 月 


用 Boruta 算法 和 CE 方法 进行 特征 选 
H Optuna 框架 对 模型 的 超 参 数 寻 优 。 他 


选取 了 tushare 数据 库 中 上 交 所 和 深交 所 的 2076 只 股票 (A 351 H ST 股票 ) 
自 2016 年 以 来 的 数据 ， 含 有 139 个 股票 特征 变量 ， 最 终 利用 Boruta 和 CE 方 
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E, 


法 筛选 了 7 个 可 解释 的 变 


里 。 


模型 预测 结 


模型 组 合 上 获得 了 最 好 的 预测 精度 。 


分 析 金 融 数 据 需 要 对 其 建 模 数学 模型 ， 但 4 
斯 性 ， 给 数据 建 模 带 来 了 挑战 。Calsaverini 和 Vicente [150,51] 给 出 了 一 种 
H CE (MI) 的 边缘 分 布 无 关 特性 ， 
H CE 的 定义 ,将 问题 转化 为 


Zi 


高 


巧妙 的 Copula 函数 模型 选择 方法 。 该 方法 利 月 
将 Copula 鉴别 问题 的 目标 与 边缘 函数 分 开 ， 再 利 月 


BR 
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果 表 明 该 方法 在 筛选 特征 和 XGBoost 


= 
E 


以 及 其 联合 分 布 具有 非 


以 MI 为 上 界 的 模型 选择 问题 。 作 者 还 定义 了 超 量 信息 (Informaion Excess) 的 
概念 。 作 者 将 建 模 方法 应 用 于 1990 至 2008 年 间 标 普 500 指数 的 150 只 股票 的 


每 日 对 数 收益 率 数据 ， 利 用 超 量 信息 , 验证 了 该 方法 作用 于 工 Copula 函数 族 时 


的 有 效 性 。 


R J Copula 是 一 种 灵活 的 构建 多 元 copula 分 布 的 工 


L, MERRIA E 


建立 此 类 模型 的 关键 步骤 。Alanazi [152] 基于 CE 和 MI, CMI 之 间 的 关系 ， 提 
出 了 一 种 R E3 copula 的 构建 方法 ， 基 于 MI 建立 最 小 生成 树 ， 再 计算 前 一 子 树 


每 对 边 上 的 CMI， 根 据 CM 
Ù R Ike copula 构建 方法 应 有 


I 建立 新 的 子 树 
于 股票 间 相关 结 


决定 及 copula 的 层级 结构 。 他 将 
构 的 建 模 问 题 ， 基 于 德 


国 DAX 指 


数 15 种 主要 股票 数据 (2005 年 1 月 至 2009 年 8 H) 构建 了 资产 间 关 系 结构 
的 R GE copula 模型 ， 与 传统 方法 相 比 ， 该 方法 建立 的 copula 相关 结构 模型 能 
够 更 好 地 拟 合 数据 。 王 念 多 [53] 基于 CE 与 MI, CMI 之 间 的 关系 提出 了 一 个 


类 似 的 芯 copula £i 
的 相关 结 


构 选 择 算法 。 作 者 利 月 


明 ， 从 拟 合 优 度 指标 看 ， 后 者 的 结果 亿 
果 刻 画 的 五 大 行业 资产 之 间 的 依赖 关系 更 合理 。 
系统 的 系统 性 风险 问题 受到 各 


的 结 


金融 危机 的 发 生 使 金融 


该 算法 分 析 了 中 证 五 大 行业 指数 之 间 
构 ， 利 用 2019 年 3 月 1 日 至 2022 年 3 月 1 日 之 间 的 数据 ， 构 建 了 
基于 Kendall 相关 系数 的 芯 copula 结构 和 基于 MI AYR copula 结构 ， 结 果 表 
于 前 者 的 结果 ; 从 可 解释 性 角度 看 ， 后 者 


我 国 股票 市 场 放 开 管 制 加 深 


了 经 济 


国 监管 部 门 的 关注 。 


金融 的 一 体 化 程度 ， 造 成 了 各 个 行业 之 间 的 


耦合 ， 从 而 加 大 了 系统 性 风险 的 程度 ， 因 此 需要 对 跨行 业 的 风险 汶 出 效应 加 以 


研究 ， 以 期 进行 防范 和 化 解 。 


融 风险 组 合 。 熊 靖宇 [154] RA 


日 我 


和 路 行业 风险 溢出 特征 的 动态 演变 过 程 , 特别 针对 2008 年 金融 


RUFA EAE 


的 数学 工 
H CE 等 工具 对 2005 年 1 月 5 日 至 2020 年 7 月 3 
国 股票 市 场 11 个 行业 的 日 对 数 收益 率 数据 进行 了 分 析 ， 研究 行业 个 体 风 险 


BA 


FAT 


具 ,十 分 适合 度 


危机 、2013 年 钱 


I 2015 年 股灾 三 个 时 期 的 风险 特征 进行 研究 。 研 究 发 现 , 行业 联合 CE 动态 
变化 澡 后 于 累加 独立 炉 发 生 ， 说 明了 行业 间 联 动 导致 了 系统 性 风险 增强 ;2008 


2 


年 
平 较 强 。 


融 危 机 的 市 场 内 部 传染 色 


金融 脆弱 性 是 由 金融 部 
性 度量 工具 可 以 使 


日 益 成 熟 的 网 络 分 析 理 论 为 从 金融 网 络 的 角度 度 划 


门 自身 高 负债 经 


营 带 来 的 内 在 不 稳定 ， 


更 强 ， 破 坏 程度 更 大 ; 近期 11 个 行业 内 部 关联 水 


E 


。 人 金融 脆弱 


国家 及 时 地 对 危机 进行 响应 和 干预 ， 因 此 得 到 了 大 量 的 研究 。 


E 
H 


] m 


但 传统 的 网 络 构建 方法 只 是 基于 线性 关系 度量 工 


金融 脆弱 性 提供 Th 法 工具 , 


， 如 皮尔 逊 相关 系数 等 ， 不 


能 够 反映 金融 系统 中 的 非 线性 


关系 特性 。 


进 的 网 络 
构建 金融 网 络 , 再 计算 网 络 的 
方法 应 用 于 2006 年 4 月 至 
入 机 前 后 的 市 场 脆弱 性 
折 地 描述 了 人 金 


nA 


X 
E 


ur Rit om 


融 危 机 后 了 


ET 


TÉ 


E [zl 


H 


有 风险 是 金 
地 管理 信用 风险 。 信 用 壮 


H% (Network Curvature) 
四 种 离散 Ricci 


o 结果 表明 ， 
市 场 的 脆弱 性 


Chen 等 [155] 提出 了 一 种 利 
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用 CE 改 


EX 


融 脆 弱 性 


i 


方法 ， 该 方法 先 利 用 CE 


2022 年 4 月 间 


率 作为 了 
沪 深 300 指数 的 股票 数据 ,分 


上 场 脆弱 性 度量 。 他 们 将 


该 度量 
HH 


FI 


, 


融 银行 业 面 对 的 主要 基本 风险 之 一 ， 
分 卡 模型 是 一 种 对 客户 进行 信和 月 


是 管控 金融 风险 的 决策 工具 。 
等 级 , 来 决定 其 4 
低 且 生成 的 模型 不 够 完 
模型 构建 方法 ， 


WA PR ca Tah 


Bue NS 


该 类 模型 根据 客户 的 信 月 
评分 卡 模型 方法 依 和 


方法 比 基 于 皮尔 逊 相关 的 方 
有 传统 风险 度量 同样 的 风险 


保障 4 


zd EUR C 
风险 评价 的 模型 方法 ， 
历史 数据 为 其 划分 信用 
靠 专 家 经 验 , 效率 


善 。 孔 祥 永 等 [150] 提出 一 种 基于 CE 的 自动 化 信和 月 
可 以 同时 保证 模型 具 


解释 性 。 


H 


作者 将 该 方法 在 真实 信 


果 表 
释 的 客户 

准确 
建立 相关 
的 市 场 逻 辑 ， 


J 


特征 。 
| 


HH 
HEFIN 


种 基于 


4 品 价 格 之 间 的 因果 关系 , 以 


明 方 法 大 大 缩短 了 建 模 时 间 ， 且 


预测 模型 是 研究 者 关心 的 重要 问题 之 
它们 的 价格 也 会 产生 机 
格 间 的 因果 关系 建立 比 传统 方法 更 准确 的 价格 预测 
价格 间 因 果 关 系 的 迁移 学 习 框 架 


金融 产品 价格 可 以 帮助 投资 者 管理 风险 六 


is 卡 数据 上 与 专家 建 模 进行 了 对 比 ， 实 验 结 
能 够 得 到 媲美 专家 模型 的 预测 怕 


H XU; 
有 高 预测 性 能 和 


E BERI n] ft 


进行 投资 决策 ， 因 而 


。 由 于 4 
应 的 因果 联动 效应 。 因 此, 可 以 利 
模型 。 Zhang 等 


融 产 品 之 间 存 在 内 在 
用 这 种 价 
提出 了 


， 利 用 基 
选择 因 变 量 价格 月 


择 的 基础 上 ， 提 出 了 用 于 训练 深度 
将 算法 分 别 应 用 于 国际 主要 的 财经 


年 至 2021 年 的 每 日 价格 数据 上 ， 结 果 发 现 ， 利 月 
类 价格 间 的 因果 关系 ， 在 此 基础 上 ， 利 月 


FAJRERA 
指数 、 能 源 期 货 


T CE 的 TE 方法 计算 不 同 
日 于 预测 果 变 量 价格 , 再 在 选 
算法 以 得 到 预测 模型 。 他 们 
价格 和 农产品 期 货 价格 2010 


Hd 
该 迁移 学 


于 CE a TE 方法 发 现 了 同 
习 框 架 得 到 的 模型 在 三 类 价 


格 数据 上 均 给 出 了 较 同 类 对 比 算法 更 好 的 预测 结果 。 


6 总 结 


统计 独立 性 是 统计 学 和 机 顺 学 习 和 邻 
Copula 理论 提 
量 的 边缘 函数 与 表示 统计 关联 
而 CE 理论 


独立 性 是 该 领域 的 基本 问题 。 


通过 将 随机 变 
表示 任何 关联 性 的 数学 形式 。 
度量 了 Copula 函数 表示 中 所 有 的 
Aic AH 


本 文 综述 了 CE 的 理论 和 应 月 


属性 的 理想 的 统计 度量 


^N 


JH 


thier 


信息 量 ， 


ELA. 


H, MA 


页 域 的 基础 性 
了 统计 相关 性 
EI) Copula 函数 相 
则 给 出 了 度量 统计 独立 性 


了 CE 基本 概念 定 


概念 ， 如 何 表示 和 度 f 


示 的 理论 
分 离 ， 


"d 


得 至 
的 概念 工具 ， 
目 关 性 的 强度 。CE 是 一 种 具 


X. 5 MI 等 价 性 


的 定理 和 推论 ， 以 及 CE 的 性 质 。 介 绍 了 CE 的 非 参 数 估计 方法 。 本 文 介绍 了 
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CE 研究 的 最 新 进展 ， 包 括 其 在 统计 学 九 个 基本 问题 (结构 学 习 、 关 联 发 现 、 变 


量 选择 、 因 果 发 现 、 系 统 辨识 、 时 延 估计 、 


RAES. ESH 


检验 和 双 样 本 检验 


等 ) 上 的 理论 应 用 , 讨论 了 前 四 个 理论 应 用 之 间 的 关系 , 探讨 了 这 四 个 应 用 对 应 


的 深层 次 的 相关 性 和 因果 性 概念 之 间 的 联系 ， 
度量 框架 与 基于 核 函 数 和 距离 的 相关 怕 
架 在 多 个 方面 的 理论 优越 性 ， 又 通过 仿真 和 实际 数据 实验 计 


将 基于 CE 


际 优越 性 。 


的 (条件) 独立 性 


度量 框架 进行 了 对 比 ， 指 出 了 本 理论 杠 
估 验 证 了 CE 的 实 


本 文 综述 了 CE 在 理论 物理 学 、 天 体 物理 学 、 理 论 化 学 、 化 学 信息 学 、 材 


经 学 、 运 动 神经 学 、 计 算 神 经 学 、 


学 、 老 年 医学 、 精 神 病 学 、 公 共 卫 生 学 、 


心理 学 、 系 统 4 


水 文学 、 气 候 学 、 气 象 学 、 环 境 学 、 生 态 学 、 动 物 形态 学 、 农 学 、 认 知 神 
E 物 学 、 生 物 信息 学 、 临 床 诊断 


经 济 学 、 管 理学 、 社 会 学 、 教 育 学 、 计 


算 语 言 学 、 新 闻 传 播 学 、 法 学 、 


政治 学 


工程 、 土 木 建 筑 、 交 通 运 输 、 制 造 工 程 
辆 工程 、 电 子 工程 、 通 信 工 程 、 高 性 能 计算 、 测 绘 通 感 和 4 


的 实际 应 用 。 基 于 CE 带 来 的 理论 和 计算 上 的 优势 ， 
分 析 和 度量 各 种 类 型 数据 中 的 统计 关联 怕 


、 可 靠 人 


或 因果 性 ， 通 过 选 


、 和 军事 学 、 情 报 学 ， 以 及 能 源 工程 、 食 品 
工程 、 化 学 工程 、 航 空 航 天 、 车 
ei Lee BL 
在 这 些 应 用 中 CE 被 用 来 


择 变 量 来 建立 模型 ， 


以 及 作为 评价 指标 评价 模型 ， 均 取得 了 良好 的 应 用 效果 。CE 作为 一 种 基础 性 工 


有 具 ， 不 仅 为 这 些 应 用 提供 了 基本 的 理论 和 方法 ， 也 为 应 月 


生 提 供 了 可 能 。 


A 软件 实现 


本 文 所 述 的 CE 估计 算法 、TE 估计 算法 、 正 态 局 
计量 的 估计 算法 已 在 R 和 Python 语言 的 copent 算法 包 中 实现 [159], 3/16 


CRAN 和 PyPI 上 共享 : 


日 中 各 种 新 方法 论 的 派 


E 检 验 和 双 样 本 检验 的 统 


e CRAN https://cran.r-project.org/package-copent; 
e PyPI https://pypi.org/project/copent/.. 


相关 源码 见 作者 的 GitHub: Extpaz/7github.con/najianthu, 
另 ， 第 三 方 实现 的 CE 估计 算法 包括 : 


eR 语言 的 Cylcop 包 pakid; 


。 Python 语言 的 MLFinLab 包 [146] ; 
。 Julia 语言 的 CopEnt.jl 4 和 Causality Tools.jl 包 pig: 以 及 
。 Matlab 和 Python 语言 的 gcmi 包 [bs big} 等 。 
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